Agentic Coding

LiveBench: Agentic Coding est une catégorie du benchmark LiveBench consacrée au codage agentique. Créée par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, elle évalue des agents de développement autonomes…

LiveBench: Agentic Coding est une catégorie du benchmark LiveBench consacrée au codage agentique. Créée par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, elle évalue des agents de développement autonomes capables d’intervenir sur plusieurs tours dans un environnement de développement.

Le benchmark vise à mesurer des compétences proches d’un usage logiciel interactif, au-delà de la simple génération de code isolée. Les tâches reposent sur une vérité-terrain objective et vérifiable, avec une notation automatique sans juge LLM.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAbacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesuréesCodage agentique : capacite d'un agent de developpement autonome a operer sur plusieurs tours dans un environnement de developpement
ModalitéTexte
Type de questionsTaches de codage agentique multi-tours en environnement de developpement
Métrique d'évaluationScoring automatique sur verite-terrain objective et verifiable, sans juge LLM
AccèsPublic
LicenceApache-2.0 (depot avec composants sous MIT)
Languesanglais
Taille du jeu40-100 questions par tache (plusieurs taches par categorie)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GLM-5.2Zhipu AI73,3 %16 juin 2026✅ Mesuré
2GPT-5.4OpenAI70,0 %5 mars 2026✅ Mesuré
3Kimi K2.7 CodeMoonshot AI70,0 %12 juin 2026✅ Mesuré
4Gemini 3.1 Pro PreviewGoogle65,0 %19 février 2026✅ Mesuré
5Claude Opus 4.5Anthropic63,3 %24 novembre 2025✅ Mesuré
6Claude Opus 4.6Anthropic61,7 %7 avril 2026✅ Mesuré
7Claude Fable 5Anthropic60,0 %9 juin 2026✅ Mesuré
8Claude Opus 4.7Anthropic60,0 %12 mai 2026✅ Mesuré
9Claude Opus 4.8Anthropic60,0 %28 mai 2026✅ Mesuré
10Claude Sonnet 4.6Anthropic60,0 %17 février 2026✅ Mesuré
11MiniMax M3MiniMax60,0 %1 juin 2026✅ Mesuré
12Kimi K2.6Moonshot AI58,3 %✅ Mesuré
13DeepSeek V4 ProDeepSeek56,7 %24 avril 2026✅ Mesuré
14GPT-5.5OpenAI56,7 %23 avril 2026✅ Mesuré
15GLM-5Zhipu AI55,0 %11 février 2026✅ Mesuré
16GLM-5.1Zhipu AI55,0 %7 avril 2026✅ Mesuré
17GPT-5.3 CodexOpenAI55,0 %5 février 2026✅ Mesuré
18Qwen3.6 PlusQwen55,0 %31 mars 2026✅ Mesuré
19gemini-3-pro-preview-11-2025-highGoogle55,0 %✅ Mesuré
20Claude Opus 4.1Anthropic53,3 %5 août 2025✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 46,7 %.

Notre analyse

Un score élevé sur LiveBench: Agentic Coding indique qu’un modèle, utilisé comme agent de codage, parvient mieux à enchaîner des actions de développement sur plusieurs tours et à produire des résultats vérifiables dans l’environnement prévu. La métrique renforce la rigueur de l’évaluation, car elle repose sur un scoring automatique associé à une vérité-terrain objective, et non sur l’appréciation d’un autre modèle. Cette robustesse doit toutefois être nuancée par la fiabilité des scores disponibles dans la base, majoritairement auto-déclarés par les éditeurs.

Le classement suggère une marge de progression importante: le score médian de l’ensemble reste à 47 %, tandis que le meilleur modèle recensé, GLM-5.2 (Zhipu AI), atteint 73 %. Le benchmark ne paraît donc pas saturé dans cet échantillon. Ses limites tiennent à sa portée spécialisée, centrée sur le codage agentique en anglais, ainsi qu’au risque général de contamination lié à un accès public. Il éclaire surtout la performance en environnement de développement multi-tours, sans résumer l’ensemble des capacités d’un modèle.


Sources des scores : livebench.