Autres benchmarks

Agentic Coding

LiveBench: Agentic Coding est une catégorie du benchmark LiveBench consacrée au codage agentique. Créée par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, elle évalue des agents de développement autonomes…

Le benchmark vise à mesurer des compétences proches d’un usage logiciel interactif, au-delà de la simple génération de code isolée. Les tâches reposent sur une vérité-terrain objective et vérifiable, avec une notation automatique sans juge LLM.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesurées	Codage agentique : capacite d'un agent de developpement autonome a operer sur plusieurs tours dans un environnement de developpement
Modalité	Texte
Type de questions	Taches de codage agentique multi-tours en environnement de developpement
Métrique d'évaluation	Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM
Accès	Public
Licence	Apache-2.0 (depot avec composants sous MIT)
Langues	anglais
Taille du jeu	40-100 questions par tache (plusieurs taches par categorie)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GLM-5.2	Zhipu AI	73,3 %	16 juin 2026	✅ Mesuré
2	GPT-5.4	OpenAI	70,0 %	5 mars 2026	✅ Mesuré
3	Kimi K2.7 Code	Moonshot AI	70,0 %	12 juin 2026	✅ Mesuré
4	Gemini 3.1 Pro Preview	Google	65,0 %	19 février 2026	✅ Mesuré
5	Claude Opus 4.5	Anthropic	63,3 %	24 novembre 2025	✅ Mesuré
6	Claude Opus 4.6	Anthropic	61,7 %	7 avril 2026	✅ Mesuré
7	Claude Fable 5	Anthropic	60,0 %	9 juin 2026	✅ Mesuré
8	Claude Opus 4.7	Anthropic	60,0 %	12 mai 2026	✅ Mesuré
9	Claude Opus 4.8	Anthropic	60,0 %	28 mai 2026	✅ Mesuré
10	Claude Sonnet 4.6	Anthropic	60,0 %	17 février 2026	✅ Mesuré
11	MiniMax M3	MiniMax	60,0 %	1 juin 2026	✅ Mesuré
12	Kimi K2.6	Moonshot AI	58,3 %	—	✅ Mesuré
13	DeepSeek V4 Pro	DeepSeek	56,7 %	24 avril 2026	✅ Mesuré
14	GPT-5.5	OpenAI	56,7 %	23 avril 2026	✅ Mesuré
15	GLM-5	Zhipu AI	55,0 %	11 février 2026	✅ Mesuré
16	GLM-5.1	Zhipu AI	55,0 %	7 avril 2026	✅ Mesuré
17	GPT-5.3 Codex	OpenAI	55,0 %	5 février 2026	✅ Mesuré
18	Qwen3.6 Plus	Qwen	55,0 %	31 mars 2026	✅ Mesuré
19	gemini-3-pro-preview-11-2025-high	Google	55,0 %	—	✅ Mesuré
20	Claude Opus 4.1	Anthropic	53,3 %	5 août 2025	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 46,7 %.

Notre analyse

Un score élevé sur LiveBench: Agentic Coding indique qu’un modèle, utilisé comme agent de codage, parvient mieux à enchaîner des actions de développement sur plusieurs tours et à produire des résultats vérifiables dans l’environnement prévu. La métrique renforce la rigueur de l’évaluation, car elle repose sur un scoring automatique associé à une vérité-terrain objective, et non sur l’appréciation d’un autre modèle. Cette robustesse doit toutefois être nuancée par la fiabilité des scores disponibles dans la base, majoritairement auto-déclarés par les éditeurs.

Le classement suggère une marge de progression importante: le score médian de l’ensemble reste à 47 %, tandis que le meilleur modèle recensé, GLM-5.2 (Zhipu AI), atteint 73 %. Le benchmark ne paraît donc pas saturé dans cet échantillon. Ses limites tiennent à sa portée spécialisée, centrée sur le codage agentique en anglais, ainsi qu’au risque général de contamination lié à un accès public. Il éclaire surtout la performance en environnement de développement multi-tours, sans résumer l’ensemble des capacités d’un modèle.

Sources des scores : livebench.

Agentic Coding

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++