PinchBench : agentique (OpenClaw, 147 tâches)

PinchBench : agentique (OpenClaw, 147 tâches) est un benchmark public et open source créé par Kilo Code. Il évalue des modèles LLM dans un cadre d’agents de code OpenClaw, avec des tâches réelles impliquant l’usage d’outils, la planification, la recherche, la gestion de fichiers et…

PinchBench : agentique (OpenClaw, 147 tâches) est un benchmark public et open source créé par Kilo Code. Il évalue des modèles LLM dans un cadre d’agents de code OpenClaw, avec des tâches réelles impliquant l’usage d’outils, la planification, la recherche, la gestion de fichiers et l’exécution d’actions en plusieurs étapes.

Son intérêt est de mesurer la capacité d’un modèle à agir au-delà de la simple génération de texte. Le benchmark observe le taux de réussite, mais aussi la vitesse et le coût, avec une notation fondée sur des checks automatiques, un juge LLM ou une approche hybride.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkKilo Code (kilo.ai)
Capacités mesuréesCapacités agentiques d'agents de code « OpenClaw » : usage d'outils, enchaînement d'actions multi-étapes, gestion d'instructions ambiguës, accomplissement de tâches réelles.
ModalitéTexte
Type de questionsTâches agentiques réelles (usage d'outils, raisonnement multi-étapes)
Métrique d'évaluationTaux de réussite (+ vitesse, coût) ; notation par checks automatiques, juge LLM ou hybride
AccèsPublic
LanguesAnglais
Taille du jeu147 tâches selon l'intitulé du benchmark (la page officielle mentionne 23 tâches en v1, objectif 100 pour v2)
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen92,5 %19 mai 2026✅ Mesuré
2Claude Opus 4.8Anthropic90,5 %28 mai 2026✅ Mesuré
3Nemotron 3 Ultra (550B A55B)NVIDIA89,9 %4 juin 2026✅ Mesuré
4MiMo-V2.5Xiaomi89,7 %22 avril 2026✅ Mesuré
5xAI: Grok Build 0.1xAI88,9 %20 mai 2026✅ Mesuré
6Qwen: Qwen3.6 FlashQwen88,1 %27 avril 2026✅ Mesuré
7MiMo-V2.5-ProXiaomi87,5 %27 avril 2026✅ Mesuré
8GLM-5.2Zhipu AI87,0 %16 juin 2026✅ Mesuré
9inclusionAI: Ling-2.6-1Tinclusionai82,6 %23 avril 2026✅ Mesuré
10DeepSeek-V4-Flash-MaxDeepSeek81,7 %23 avril 2026✅ Mesuré
11Gemini 3.1 Pro PreviewGoogle81,0 %19 février 2026✅ Mesuré
12Gemini 3.1 Flash-LiteGoogle80,5 %3 mars 2026✅ Mesuré
13Grok 4.20xAI80,3 %31 mars 2026✅ Mesuré
14Step-3.5-FlashStepFun79,4 %2 février 2026✅ Mesuré
15GPT-5.4 miniOpenAI79,2 %17 mars 2026✅ Mesuré
16Kimi K2.7 CodeMoonshot AI76,1 %12 juin 2026✅ Mesuré
17Claude Opus 4.7Anthropic76,0 %12 mai 2026✅ Mesuré
18GPT-5.4OpenAI75,7 %5 mars 2026✅ Mesuré
19GPT-5.5OpenAI75,5 %23 avril 2026✅ Mesuré
20Seed 2.0 Litebytedance75,0 %14 février 2026✅ Mesuré

Classement établi sur 52 modèles évalués, dont 35 de grands éditeurs. Score médian de l'ensemble : 69,7 %.

Notre analyse

Un score élevé sur PinchBench indique qu’un modèle parvient fréquemment à mener à terme des tâches agentiques concrètes, notamment lorsqu’il faut sélectionner des outils, enchaîner plusieurs actions et composer avec des consignes ambiguës. Le meilleur score recensé dans la base, Qwen3.7 Max à 93 %, suggère une forte efficacité dans ce cadre, tandis que le score médian de 70 % montre que le benchmark reste discriminant pour une partie des modèles évalués.

La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés. Certaines limites demeurent : le périmètre reste centré sur des agents de code OpenClaw et des tâches en anglais, ce qui ne couvre pas tous les usages agentiques. La taille exacte du jeu appelle aussi une lecture prudente, l’intitulé mentionnant 147 tâches alors que la page officielle indique 23 tâches en v1 et un objectif de 100 pour v2. Comme pour tout benchmark public, une exposition répétée peut aussi favoriser la contamination ou une saturation progressive du classement.


Sources des scores : pinchbench.