Coding

LiveBench: Coding est la catégorie de LiveBench consacrée à l’évaluation des modèles sur des tâches de programmation. Créé par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, ce benchmark s’appuie sur des…

LiveBench: Coding est la catégorie de LiveBench consacrée à l’évaluation des modèles sur des tâches de programmation. Créé par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, ce benchmark s’appuie sur des problèmes récents issus de concours de programmation.

Il mesure la capacité à générer et compléter du code à partir d’énoncés techniques, avec une notation automatique fondée sur une vérité-terrain objective. Son intérêt principal est de comparer les performances de modèles sur des tâches de code vérifiables, tout en réduisant le risque de contamination par des données anciennes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAbacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesuréesGeneration et completion de code a partir de problemes de concours de programmation recents
ModalitéTexte
Type de questionsGeneration et completion de code (issues de concours de programmation recents)
Métrique d'évaluationScoring automatique sur verite-terrain objective et verifiable, sans juge LLM
AccèsPublic
LicenceApache-2.0 (depot avec composants sous MIT)
Languesanglais
Taille du jeu40-100 questions par tache (plusieurs taches par categorie)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.2 CodexOpenAI83,6 %14 janvier 2026✅ Mesuré
2GPT-5.5OpenAI82,5 %23 avril 2026✅ Mesuré
3Claude Opus 4.7Anthropic82,1 %12 mai 2026✅ Mesuré
4Claude Sonnet 4Anthropic80,7 %22 mai 2025✅ Mesuré
5GPT-5.1 CodexOpenAI80,7 %19 novembre 2025✅ Mesuré
6GLM-5.2Zhipu AI79,7 %16 juin 2026✅ Mesuré
7Claude Opus 4.8Anthropic79,3 %28 mai 2026✅ Mesuré
8Claude Sonnet 4.6Anthropic79,3 %17 février 2026✅ Mesuré
9GPT-5.3 InstantOpenAI78,6 %✅ Mesuré
10Claude Fable 5Anthropic78,6 %9 juin 2026✅ Mesuré
11Kimi K2.6Moonshot AI78,6 %✅ Mesuré
12Claude Opus 4.5Anthropic78,5 %24 novembre 2025✅ Mesuré
13Claude Opus 4.6Anthropic78,2 %7 avril 2026✅ Mesuré
14GPT-5.3 CodexOpenAI78,2 %5 février 2026✅ Mesuré
15Gemini 3.5 FlashGoogle78,2 %19 mai 2026✅ Mesuré
16Qwen3.6 PlusQwen78,2 %31 mars 2026✅ Mesuré
17Kimi K2.5Moonshot AI77,9 %✅ Mesuré
18GPT-5.4OpenAI77,5 %5 mars 2026✅ Mesuré
19Gemini 3.1 Pro PreviewGoogle76,5 %19 février 2026✅ Mesuré
20Claude Opus 4.1Anthropic76,1 %5 août 2025✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 71,7 %.

Notre analyse

Un score élevé sur LiveBench: Coding indique une bonne aptitude à produire du code correct pour des problèmes de concours récents, dans un cadre où la réponse peut être vérifiée automatiquement. La métrique ne repose pas sur un juge LLM, ce qui renforce la rigueur de l’évaluation lorsque les résultats sont effectivement mesurés selon le protocole du benchmark. Dans la base considérée, 76 modèles sont évalués, avec un score médian de 72 %, et GPT-5.2 Codex (OpenAI) atteint le meilleur résultat à 84 %, ce qui suggère une avance mesurable mais non absolue sur l’ensemble du classement.

Plusieurs limites restent importantes. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les interpréter avec prudence. La portée du benchmark reste centrée sur la génération et la complétion de code à partir de concours de programmation, et ne couvre pas nécessairement le développement logiciel complet, la maintenance, l’intégration ou le travail sur de grands dépôts. Le recours à des problèmes récents vise à limiter la contamination, sans l’exclure totalement. Le niveau médian relativement élevé peut aussi signaler une progression générale des modèles, voire un début de saturation sur certaines tâches.


Sources des scores : livebench.