Claw-Eval

Claw-Eval est un benchmark consacré à l’évaluation d’agents autonomes dans des tâches agentiques end-to-end, complexes et multi-étapes. Créé par Bowen Ye et al., de l’Université de Pékin et de l’Université de Hong Kong, il vise à mesurer la capacité d’un modèle à utiliser des outils,…

Claw-Eval est un benchmark consacré à l’évaluation d’agents autonomes dans des tâches agentiques end-to-end, complexes et multi-étapes. Créé par Bowen Ye et al., de l’Université de Pékin et de l’Université de Hong Kong, il vise à mesurer la capacité d’un modèle à utiliser des outils, naviguer dans des environnements et mener une tâche à son terme.

Le benchmark se distingue par une notation auditable fondée sur la trajectoire d’exécution. Il examine trois dimensions complémentaires, la complétion, la sécurité et la robustesse, afin de fournir une lecture plus opérationnelle des performances que les tests centrés sur des réponses isolées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBowen Ye et al. (Université de Pékin & Université de Hong Kong)
Capacités mesuréesÉvalue les agents autonomes selon trois axes (complétion, sécurité, robustesse) via une notation auditable basée sur la trajectoire d'exécution.
ModalitéTexte
Type de questionstâches agentiques end-to-end multi-étapes (9 catégories)
Métrique d'évaluationAverage Score, Pass@k et Pass^k (sur 3 essais), notation par trajectoire
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeu300 tâches vérifiées par humains (2 159 items de rubrique)
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 12)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.6Moonshot AI80,9 %20 avril 2026Auto-déclaré
2GLM-5V-TurboZhipu AI75,0 %2 avril 2026Auto-déclaré
3MiniMax M3MiniMax74,5 %1 juin 2026Auto-déclaré
4Qwen3.7 MaxQwen65,2 %19 mai 2026Auto-déclaré
5MiMo-V2.5-ProXiaomi64,0 %27 avril 2026Auto-déclaré
6MiMo-V2.5Xiaomi63,2 %22 avril 2026Auto-déclaré
7Qwen3.7-PlusQwen62,7 %31 mai 2026Auto-déclaré
8MiMo-V2-ProXiaomi61,5 %18 mars 2026Auto-déclaré
9Qwen3.6-27BQwen60,6 %21 avril 2026Auto-déclaré
10Qwen3.6 PlusQwen58,7 %31 mars 2026Auto-déclaré
11MiMo-V2-OmniXiaomi54,8 %18 mars 2026Auto-déclaré
12Qwen3.6-35B-A3BQwen50,0 %16 avril 2026Auto-déclaré

Classement établi sur 12 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 62,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Claw-Eval indique qu’un modèle parvient plus souvent à accomplir des tâches longues et structurées, tout en conservant un comportement sûr et robuste au fil de l’exécution. La prise en compte de la trajectoire rend l’évaluation particulièrement pertinente pour les agents, car elle ne juge pas seulement le résultat final, mais aussi le déroulement des actions qui y conduisent. La rigueur du benchmark repose sur des tâches vérifiées par des humains et une rubrique détaillée, mais l’interprétation du classement reste prudente, les scores recensés étant majoritairement auto-déclarés par les éditeurs. Le score médian de 63 % suggère une difficulté encore significative pour les modèles évalués, tandis que Kimi K2.6, à 81 %, se détache comme meilleur modèle dans la base. Les limites portent notamment sur la portée anglophone, le risque de contamination si les tâches deviennent largement connues, et une possible saturation future si les meilleurs agents convergent vers des scores élevés.


Sources des scores : llm-stats.