Agentic Coding
LiveBench: Agentic Coding est une catégorie du benchmark LiveBench consacrée au codage agentique. Créée par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, elle évalue des agents de développement autonomes…
LiveBench: Agentic Coding est une catégorie du benchmark LiveBench consacrée au codage agentique. Créée par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, elle évalue des agents de développement autonomes capables d’intervenir sur plusieurs tours dans un environnement de développement.
Le benchmark vise à mesurer des compétences proches d’un usage logiciel interactif, au-delà de la simple génération de code isolée. Les tâches reposent sur une vérité-terrain objective et vérifiable, avec une notation automatique sans juge LLM.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench) |
| Capacités mesurées | Codage agentique : capacite d'un agent de developpement autonome a operer sur plusieurs tours dans un environnement de developpement |
| Modalité | Texte |
| Type de questions | Taches de codage agentique multi-tours en environnement de developpement |
| Métrique d'évaluation | Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM |
| Accès | Public |
| Licence | Apache-2.0 (depot avec composants sous MIT) |
| Langues | anglais |
| Taille du jeu | 40-100 questions par tache (plusieurs taches par categorie) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GLM-5.2 | Zhipu AI | 73,3 % | 16 juin 2026 | ✅ Mesuré |
| 2 | GPT-5.4 | OpenAI | 70,0 % | 5 mars 2026 | ✅ Mesuré |
| 3 | Kimi K2.7 Code | Moonshot AI | 70,0 % | 12 juin 2026 | ✅ Mesuré |
| 4 | Gemini 3.1 Pro Preview | 65,0 % | 19 février 2026 | ✅ Mesuré | |
| 5 | Claude Opus 4.5 | Anthropic | 63,3 % | 24 novembre 2025 | ✅ Mesuré |
| 6 | Claude Opus 4.6 | Anthropic | 61,7 % | 7 avril 2026 | ✅ Mesuré |
| 7 | Claude Fable 5 | Anthropic | 60,0 % | 9 juin 2026 | ✅ Mesuré |
| 8 | Claude Opus 4.7 | Anthropic | 60,0 % | 12 mai 2026 | ✅ Mesuré |
| 9 | Claude Opus 4.8 | Anthropic | 60,0 % | 28 mai 2026 | ✅ Mesuré |
| 10 | Claude Sonnet 4.6 | Anthropic | 60,0 % | 17 février 2026 | ✅ Mesuré |
| 11 | MiniMax M3 | MiniMax | 60,0 % | 1 juin 2026 | ✅ Mesuré |
| 12 | Kimi K2.6 | Moonshot AI | 58,3 % | — | ✅ Mesuré |
| 13 | DeepSeek V4 Pro | DeepSeek | 56,7 % | 24 avril 2026 | ✅ Mesuré |
| 14 | GPT-5.5 | OpenAI | 56,7 % | 23 avril 2026 | ✅ Mesuré |
| 15 | GLM-5 | Zhipu AI | 55,0 % | 11 février 2026 | ✅ Mesuré |
| 16 | GLM-5.1 | Zhipu AI | 55,0 % | 7 avril 2026 | ✅ Mesuré |
| 17 | GPT-5.3 Codex | OpenAI | 55,0 % | 5 février 2026 | ✅ Mesuré |
| 18 | Qwen3.6 Plus | Qwen | 55,0 % | 31 mars 2026 | ✅ Mesuré |
| 19 | gemini-3-pro-preview-11-2025-high | 55,0 % | — | ✅ Mesuré | |
| 20 | Claude Opus 4.1 | Anthropic | 53,3 % | 5 août 2025 | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 46,7 %.
Notre analyse
Un score élevé sur LiveBench: Agentic Coding indique qu’un modèle, utilisé comme agent de codage, parvient mieux à enchaîner des actions de développement sur plusieurs tours et à produire des résultats vérifiables dans l’environnement prévu. La métrique renforce la rigueur de l’évaluation, car elle repose sur un scoring automatique associé à une vérité-terrain objective, et non sur l’appréciation d’un autre modèle. Cette robustesse doit toutefois être nuancée par la fiabilité des scores disponibles dans la base, majoritairement auto-déclarés par les éditeurs.
Le classement suggère une marge de progression importante: le score médian de l’ensemble reste à 47 %, tandis que le meilleur modèle recensé, GLM-5.2 (Zhipu AI), atteint 73 %. Le benchmark ne paraît donc pas saturé dans cet échantillon. Ses limites tiennent à sa portée spécialisée, centrée sur le codage agentique en anglais, ainsi qu’au risque général de contamination lié à un accès public. Il éclaire surtout la performance en environnement de développement multi-tours, sans résumer l’ensemble des capacités d’un modèle.
Sources des scores : livebench.