Coding
LiveBench: Coding est la catégorie de LiveBench consacrée à l’évaluation des modèles sur des tâches de programmation. Créé par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, ce benchmark s’appuie sur des…
LiveBench: Coding est la catégorie de LiveBench consacrée à l’évaluation des modèles sur des tâches de programmation. Créé par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, ce benchmark s’appuie sur des problèmes récents issus de concours de programmation.
Il mesure la capacité à générer et compléter du code à partir d’énoncés techniques, avec une notation automatique fondée sur une vérité-terrain objective. Son intérêt principal est de comparer les performances de modèles sur des tâches de code vérifiables, tout en réduisant le risque de contamination par des données anciennes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench) |
| Capacités mesurées | Generation et completion de code a partir de problemes de concours de programmation recents |
| Modalité | Texte |
| Type de questions | Generation et completion de code (issues de concours de programmation recents) |
| Métrique d'évaluation | Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM |
| Accès | Public |
| Licence | Apache-2.0 (depot avec composants sous MIT) |
| Langues | anglais |
| Taille du jeu | 40-100 questions par tache (plusieurs taches par categorie) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.2 Codex | OpenAI | 83,6 % | 14 janvier 2026 | ✅ Mesuré |
| 2 | GPT-5.5 | OpenAI | 82,5 % | 23 avril 2026 | ✅ Mesuré |
| 3 | Claude Opus 4.7 | Anthropic | 82,1 % | 12 mai 2026 | ✅ Mesuré |
| 4 | Claude Sonnet 4 | Anthropic | 80,7 % | 22 mai 2025 | ✅ Mesuré |
| 5 | GPT-5.1 Codex | OpenAI | 80,7 % | 19 novembre 2025 | ✅ Mesuré |
| 6 | GLM-5.2 | Zhipu AI | 79,7 % | 16 juin 2026 | ✅ Mesuré |
| 7 | Claude Opus 4.8 | Anthropic | 79,3 % | 28 mai 2026 | ✅ Mesuré |
| 8 | Claude Sonnet 4.6 | Anthropic | 79,3 % | 17 février 2026 | ✅ Mesuré |
| 9 | GPT-5.3 Instant | OpenAI | 78,6 % | — | ✅ Mesuré |
| 10 | Claude Fable 5 | Anthropic | 78,6 % | 9 juin 2026 | ✅ Mesuré |
| 11 | Kimi K2.6 | Moonshot AI | 78,6 % | — | ✅ Mesuré |
| 12 | Claude Opus 4.5 | Anthropic | 78,5 % | 24 novembre 2025 | ✅ Mesuré |
| 13 | Claude Opus 4.6 | Anthropic | 78,2 % | 7 avril 2026 | ✅ Mesuré |
| 14 | GPT-5.3 Codex | OpenAI | 78,2 % | 5 février 2026 | ✅ Mesuré |
| 15 | Gemini 3.5 Flash | 78,2 % | 19 mai 2026 | ✅ Mesuré | |
| 16 | Qwen3.6 Plus | Qwen | 78,2 % | 31 mars 2026 | ✅ Mesuré |
| 17 | Kimi K2.5 | Moonshot AI | 77,9 % | — | ✅ Mesuré |
| 18 | GPT-5.4 | OpenAI | 77,5 % | 5 mars 2026 | ✅ Mesuré |
| 19 | Gemini 3.1 Pro Preview | 76,5 % | 19 février 2026 | ✅ Mesuré | |
| 20 | Claude Opus 4.1 | Anthropic | 76,1 % | 5 août 2025 | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 71,7 %.
Notre analyse
Un score élevé sur LiveBench: Coding indique une bonne aptitude à produire du code correct pour des problèmes de concours récents, dans un cadre où la réponse peut être vérifiée automatiquement. La métrique ne repose pas sur un juge LLM, ce qui renforce la rigueur de l’évaluation lorsque les résultats sont effectivement mesurés selon le protocole du benchmark. Dans la base considérée, 76 modèles sont évalués, avec un score médian de 72 %, et GPT-5.2 Codex (OpenAI) atteint le meilleur résultat à 84 %, ce qui suggère une avance mesurable mais non absolue sur l’ensemble du classement.
Plusieurs limites restent importantes. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les interpréter avec prudence. La portée du benchmark reste centrée sur la génération et la complétion de code à partir de concours de programmation, et ne couvre pas nécessairement le développement logiciel complet, la maintenance, l’intégration ou le travail sur de grands dépôts. Le recours à des problèmes récents vise à limiter la contamination, sans l’exclure totalement. Le niveau médian relativement élevé peut aussi signaler une progression générale des modèles, voire un début de saturation sur certaines tâches.
Sources des scores : livebench.