Autres benchmarks

PinchBench : agentique (OpenClaw, 147 tâches)

PinchBench : agentique (OpenClaw, 147 tâches) est un benchmark public et open source créé par Kilo Code. Il évalue des modèles LLM dans un cadre d’agents de code OpenClaw, avec des tâches réelles impliquant l’usage d’outils, la planification, la recherche, la gestion de fichiers et…

Son intérêt est de mesurer la capacité d’un modèle à agir au-delà de la simple génération de texte. Le benchmark observe le taux de réussite, mais aussi la vitesse et le coût, avec une notation fondée sur des checks automatiques, un juge LLM ou une approche hybride.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Kilo Code (kilo.ai)
Capacités mesurées	Capacités agentiques d'agents de code « OpenClaw » : usage d'outils, enchaînement d'actions multi-étapes, gestion d'instructions ambiguës, accomplissement de tâches réelles.
Modalité	Texte
Type de questions	Tâches agentiques réelles (usage d'outils, raisonnement multi-étapes)
Métrique d'évaluation	Taux de réussite (+ vitesse, coût) ; notation par checks automatiques, juge LLM ou hybride
Accès	Public
Langues	Anglais
Taille du jeu	147 tâches selon l'intitulé du benchmark (la page officielle mentionne 23 tâches en v1, objectif 100 pour v2)
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	92,5 %	19 mai 2026	✅ Mesuré
2	Claude Opus 4.8	Anthropic	90,5 %	28 mai 2026	✅ Mesuré
3	Nemotron 3 Ultra (550B A55B)	NVIDIA	89,9 %	4 juin 2026	✅ Mesuré
4	MiMo-V2.5	Xiaomi	89,7 %	22 avril 2026	✅ Mesuré
5	xAI: Grok Build 0.1	xAI	88,9 %	20 mai 2026	✅ Mesuré
6	Qwen: Qwen3.6 Flash	Qwen	88,1 %	27 avril 2026	✅ Mesuré
7	MiMo-V2.5-Pro	Xiaomi	87,5 %	27 avril 2026	✅ Mesuré
8	GLM-5.2	Zhipu AI	87,0 %	16 juin 2026	✅ Mesuré
9	inclusionAI: Ling-2.6-1T	inclusionai	82,6 %	23 avril 2026	✅ Mesuré
10	DeepSeek-V4-Flash-Max	DeepSeek	81,7 %	23 avril 2026	✅ Mesuré
11	Gemini 3.1 Pro Preview	Google	81,0 %	19 février 2026	✅ Mesuré
12	Gemini 3.1 Flash-Lite	Google	80,5 %	3 mars 2026	✅ Mesuré
13	Grok 4.20	xAI	80,3 %	31 mars 2026	✅ Mesuré
14	Step-3.5-Flash	StepFun	79,4 %	2 février 2026	✅ Mesuré
15	GPT-5.4 mini	OpenAI	79,2 %	17 mars 2026	✅ Mesuré
16	Kimi K2.7 Code	Moonshot AI	76,1 %	12 juin 2026	✅ Mesuré
17	Claude Opus 4.7	Anthropic	76,0 %	12 mai 2026	✅ Mesuré
18	GPT-5.4	OpenAI	75,7 %	5 mars 2026	✅ Mesuré
19	GPT-5.5	OpenAI	75,5 %	23 avril 2026	✅ Mesuré
20	Seed 2.0 Lite	bytedance	75,0 %	14 février 2026	✅ Mesuré

Classement établi sur 52 modèles évalués, dont 35 de grands éditeurs. Score médian de l'ensemble : 69,7 %.

Notre analyse

Un score élevé sur PinchBench indique qu’un modèle parvient fréquemment à mener à terme des tâches agentiques concrètes, notamment lorsqu’il faut sélectionner des outils, enchaîner plusieurs actions et composer avec des consignes ambiguës. Le meilleur score recensé dans la base, Qwen3.7 Max à 93 %, suggère une forte efficacité dans ce cadre, tandis que le score médian de 70 % montre que le benchmark reste discriminant pour une partie des modèles évalués.

La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés. Certaines limites demeurent : le périmètre reste centré sur des agents de code OpenClaw et des tâches en anglais, ce qui ne couvre pas tous les usages agentiques. La taille exacte du jeu appelle aussi une lecture prudente, l’intitulé mentionnant 147 tâches alors que la page officielle indique 23 tâches en v1 et un objectif de 100 pour v2. Comme pour tout benchmark public, une exposition répétée peut aussi favoriser la contamination ou une saturation progressive du classement.

Sources des scores : pinchbench.

PinchBench : agentique (OpenClaw, 147 tâches)

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench