PinchBench : agentique (OpenClaw, 147 tâches)
PinchBench : agentique (OpenClaw, 147 tâches) est un benchmark public et open source créé par Kilo Code. Il évalue des modèles LLM dans un cadre d’agents de code OpenClaw, avec des tâches réelles impliquant l’usage d’outils, la planification, la recherche, la gestion de fichiers et…
PinchBench : agentique (OpenClaw, 147 tâches) est un benchmark public et open source créé par Kilo Code. Il évalue des modèles LLM dans un cadre d’agents de code OpenClaw, avec des tâches réelles impliquant l’usage d’outils, la planification, la recherche, la gestion de fichiers et l’exécution d’actions en plusieurs étapes.
Son intérêt est de mesurer la capacité d’un modèle à agir au-delà de la simple génération de texte. Le benchmark observe le taux de réussite, mais aussi la vitesse et le coût, avec une notation fondée sur des checks automatiques, un juge LLM ou une approche hybride.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Kilo Code (kilo.ai) |
| Capacités mesurées | Capacités agentiques d'agents de code « OpenClaw » : usage d'outils, enchaînement d'actions multi-étapes, gestion d'instructions ambiguës, accomplissement de tâches réelles. |
| Modalité | Texte |
| Type de questions | Tâches agentiques réelles (usage d'outils, raisonnement multi-étapes) |
| Métrique d'évaluation | Taux de réussite (+ vitesse, coût) ; notation par checks automatiques, juge LLM ou hybride |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 147 tâches selon l'intitulé du benchmark (la page officielle mentionne 23 tâches en v1, objectif 100 pour v2) |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 92,5 % | 19 mai 2026 | ✅ Mesuré |
| 2 | Claude Opus 4.8 | Anthropic | 90,5 % | 28 mai 2026 | ✅ Mesuré |
| 3 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 89,9 % | 4 juin 2026 | ✅ Mesuré |
| 4 | MiMo-V2.5 | Xiaomi | 89,7 % | 22 avril 2026 | ✅ Mesuré |
| 5 | xAI: Grok Build 0.1 | xAI | 88,9 % | 20 mai 2026 | ✅ Mesuré |
| 6 | Qwen: Qwen3.6 Flash | Qwen | 88,1 % | 27 avril 2026 | ✅ Mesuré |
| 7 | MiMo-V2.5-Pro | Xiaomi | 87,5 % | 27 avril 2026 | ✅ Mesuré |
| 8 | GLM-5.2 | Zhipu AI | 87,0 % | 16 juin 2026 | ✅ Mesuré |
| 9 | inclusionAI: Ling-2.6-1T | inclusionai | 82,6 % | 23 avril 2026 | ✅ Mesuré |
| 10 | DeepSeek-V4-Flash-Max | DeepSeek | 81,7 % | 23 avril 2026 | ✅ Mesuré |
| 11 | Gemini 3.1 Pro Preview | 81,0 % | 19 février 2026 | ✅ Mesuré | |
| 12 | Gemini 3.1 Flash-Lite | 80,5 % | 3 mars 2026 | ✅ Mesuré | |
| 13 | Grok 4.20 | xAI | 80,3 % | 31 mars 2026 | ✅ Mesuré |
| 14 | Step-3.5-Flash | StepFun | 79,4 % | 2 février 2026 | ✅ Mesuré |
| 15 | GPT-5.4 mini | OpenAI | 79,2 % | 17 mars 2026 | ✅ Mesuré |
| 16 | Kimi K2.7 Code | Moonshot AI | 76,1 % | 12 juin 2026 | ✅ Mesuré |
| 17 | Claude Opus 4.7 | Anthropic | 76,0 % | 12 mai 2026 | ✅ Mesuré |
| 18 | GPT-5.4 | OpenAI | 75,7 % | 5 mars 2026 | ✅ Mesuré |
| 19 | GPT-5.5 | OpenAI | 75,5 % | 23 avril 2026 | ✅ Mesuré |
| 20 | Seed 2.0 Lite | bytedance | 75,0 % | 14 février 2026 | ✅ Mesuré |
Classement établi sur 52 modèles évalués, dont 35 de grands éditeurs. Score médian de l'ensemble : 69,7 %.
Notre analyse
Un score élevé sur PinchBench indique qu’un modèle parvient fréquemment à mener à terme des tâches agentiques concrètes, notamment lorsqu’il faut sélectionner des outils, enchaîner plusieurs actions et composer avec des consignes ambiguës. Le meilleur score recensé dans la base, Qwen3.7 Max à 93 %, suggère une forte efficacité dans ce cadre, tandis que le score médian de 70 % montre que le benchmark reste discriminant pour une partie des modèles évalués.
La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés. Certaines limites demeurent : le périmètre reste centré sur des agents de code OpenClaw et des tâches en anglais, ce qui ne couvre pas tous les usages agentiques. La taille exacte du jeu appelle aussi une lecture prudente, l’intitulé mentionnant 147 tâches alors que la page officielle indique 23 tâches en v1 et un objectif de 100 pour v2. Comme pour tout benchmark public, une exposition répétée peut aussi favoriser la contamination ou une saturation progressive du classement.
Sources des scores : pinchbench.