Code & programmation

Claw-Eval

Claw-Eval est un benchmark consacré à l’évaluation d’agents autonomes dans des tâches agentiques end-to-end, complexes et multi-étapes. Créé par Bowen Ye et al., de l’Université de Pékin et de l’Université de Hong Kong, il vise à mesurer la capacité d’un modèle à utiliser des outils,…

Le benchmark se distingue par une notation auditable fondée sur la trajectoire d’exécution. Il examine trois dimensions complémentaires, la complétion, la sécurité et la robustesse, afin de fournir une lecture plus opérationnelle des performances que les tests centrés sur des réponses isolées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Bowen Ye et al. (Université de Pékin & Université de Hong Kong)
Capacités mesurées	Évalue les agents autonomes selon trois axes (complétion, sécurité, robustesse) via une notation auditable basée sur la trajectoire d'exécution.
Modalité	Texte
Type de questions	tâches agentiques end-to-end multi-étapes (9 catégories)
Métrique d'évaluation	Average Score, Pass@k et Pass^k (sur 3 essais), notation par trajectoire
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	300 tâches vérifiées par humains (2 159 items de rubrique)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 12)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.6	Moonshot AI	80,9 %	20 avril 2026	Auto-déclaré
2	GLM-5V-Turbo	Zhipu AI	75,0 %	2 avril 2026	Auto-déclaré
3	MiniMax M3	MiniMax	74,5 %	1 juin 2026	Auto-déclaré
4	Qwen3.7 Max	Qwen	65,2 %	19 mai 2026	Auto-déclaré
5	MiMo-V2.5-Pro	Xiaomi	64,0 %	27 avril 2026	Auto-déclaré
6	MiMo-V2.5	Xiaomi	63,2 %	22 avril 2026	Auto-déclaré
7	Qwen3.7-Plus	Qwen	62,7 %	31 mai 2026	Auto-déclaré
8	MiMo-V2-Pro	Xiaomi	61,5 %	18 mars 2026	Auto-déclaré
9	Qwen3.6-27B	Qwen	60,6 %	21 avril 2026	Auto-déclaré
10	Qwen3.6 Plus	Qwen	58,7 %	31 mars 2026	Auto-déclaré
11	MiMo-V2-Omni	Xiaomi	54,8 %	18 mars 2026	Auto-déclaré
12	Qwen3.6-35B-A3B	Qwen	50,0 %	16 avril 2026	Auto-déclaré

Classement établi sur 12 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 62,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Claw-Eval indique qu’un modèle parvient plus souvent à accomplir des tâches longues et structurées, tout en conservant un comportement sûr et robuste au fil de l’exécution. La prise en compte de la trajectoire rend l’évaluation particulièrement pertinente pour les agents, car elle ne juge pas seulement le résultat final, mais aussi le déroulement des actions qui y conduisent. La rigueur du benchmark repose sur des tâches vérifiées par des humains et une rubrique détaillée, mais l’interprétation du classement reste prudente, les scores recensés étant majoritairement auto-déclarés par les éditeurs. Le score médian de 63 % suggère une difficulté encore significative pour les modèles évalués, tandis que Kimi K2.6, à 81 %, se détache comme meilleur modèle dans la base. Les limites portent notamment sur la portée anglophone, le risque de contamination si les tâches deviennent largement connues, et une possible saturation future si les meilleurs agents convergent vers des scores élevés.

Sources des scores : llm-stats.

Claw-Eval

Carte d'identité

Classement des modèles (top 12)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench