Claw-Eval
Claw-Eval est un benchmark consacré à l’évaluation d’agents autonomes dans des tâches agentiques end-to-end, complexes et multi-étapes. Créé par Bowen Ye et al., de l’Université de Pékin et de l’Université de Hong Kong, il vise à mesurer la capacité d’un modèle à utiliser des outils,…
Claw-Eval est un benchmark consacré à l’évaluation d’agents autonomes dans des tâches agentiques end-to-end, complexes et multi-étapes. Créé par Bowen Ye et al., de l’Université de Pékin et de l’Université de Hong Kong, il vise à mesurer la capacité d’un modèle à utiliser des outils, naviguer dans des environnements et mener une tâche à son terme.
Le benchmark se distingue par une notation auditable fondée sur la trajectoire d’exécution. Il examine trois dimensions complémentaires, la complétion, la sécurité et la robustesse, afin de fournir une lecture plus opérationnelle des performances que les tests centrés sur des réponses isolées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Bowen Ye et al. (Université de Pékin & Université de Hong Kong) |
| Capacités mesurées | Évalue les agents autonomes selon trois axes (complétion, sécurité, robustesse) via une notation auditable basée sur la trajectoire d'exécution. |
| Modalité | Texte |
| Type de questions | tâches agentiques end-to-end multi-étapes (9 catégories) |
| Métrique d'évaluation | Average Score, Pass@k et Pass^k (sur 3 essais), notation par trajectoire |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | 300 tâches vérifiées par humains (2 159 items de rubrique) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot AI | 80,9 % | 20 avril 2026 | Auto-déclaré |
| 2 | GLM-5V-Turbo | Zhipu AI | 75,0 % | 2 avril 2026 | Auto-déclaré |
| 3 | MiniMax M3 | MiniMax | 74,5 % | 1 juin 2026 | Auto-déclaré |
| 4 | Qwen3.7 Max | Qwen | 65,2 % | 19 mai 2026 | Auto-déclaré |
| 5 | MiMo-V2.5-Pro | Xiaomi | 64,0 % | 27 avril 2026 | Auto-déclaré |
| 6 | MiMo-V2.5 | Xiaomi | 63,2 % | 22 avril 2026 | Auto-déclaré |
| 7 | Qwen3.7-Plus | Qwen | 62,7 % | 31 mai 2026 | Auto-déclaré |
| 8 | MiMo-V2-Pro | Xiaomi | 61,5 % | 18 mars 2026 | Auto-déclaré |
| 9 | Qwen3.6-27B | Qwen | 60,6 % | 21 avril 2026 | Auto-déclaré |
| 10 | Qwen3.6 Plus | Qwen | 58,7 % | 31 mars 2026 | Auto-déclaré |
| 11 | MiMo-V2-Omni | Xiaomi | 54,8 % | 18 mars 2026 | Auto-déclaré |
| 12 | Qwen3.6-35B-A3B | Qwen | 50,0 % | 16 avril 2026 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 62,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Claw-Eval indique qu’un modèle parvient plus souvent à accomplir des tâches longues et structurées, tout en conservant un comportement sûr et robuste au fil de l’exécution. La prise en compte de la trajectoire rend l’évaluation particulièrement pertinente pour les agents, car elle ne juge pas seulement le résultat final, mais aussi le déroulement des actions qui y conduisent. La rigueur du benchmark repose sur des tâches vérifiées par des humains et une rubrique détaillée, mais l’interprétation du classement reste prudente, les scores recensés étant majoritairement auto-déclarés par les éditeurs. Le score médian de 63 % suggère une difficulté encore significative pour les modèles évalués, tandis que Kimi K2.6, à 81 %, se détache comme meilleur modèle dans la base. Les limites portent notamment sur la portée anglophone, le risque de contamination si les tâches deviennent largement connues, et une possible saturation future si les meilleurs agents convergent vers des scores élevés.
Sources des scores : llm-stats.