Autres benchmarks

Coding

LiveBench: Coding est la catégorie de LiveBench consacrée à l’évaluation des modèles sur des tâches de programmation. Créé par l’équipe LiveBench, associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, ce benchmark s’appuie sur des…

Il mesure la capacité à générer et compléter du code à partir d’énoncés techniques, avec une notation automatique fondée sur une vérité-terrain objective. Son intérêt principal est de comparer les performances de modèles sur des tâches de code vérifiables, tout en réduisant le risque de contamination par des données anciennes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesurées	Generation et completion de code a partir de problemes de concours de programmation recents
Modalité	Texte
Type de questions	Generation et completion de code (issues de concours de programmation recents)
Métrique d'évaluation	Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM
Accès	Public
Licence	Apache-2.0 (depot avec composants sous MIT)
Langues	anglais
Taille du jeu	40-100 questions par tache (plusieurs taches par categorie)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.2 Codex	OpenAI	83,6 %	14 janvier 2026	✅ Mesuré
2	GPT-5.5	OpenAI	82,5 %	23 avril 2026	✅ Mesuré
3	Claude Opus 4.7	Anthropic	82,1 %	12 mai 2026	✅ Mesuré
4	Claude Sonnet 4	Anthropic	80,7 %	22 mai 2025	✅ Mesuré
5	GPT-5.1 Codex	OpenAI	80,7 %	19 novembre 2025	✅ Mesuré
6	GLM-5.2	Zhipu AI	79,7 %	16 juin 2026	✅ Mesuré
7	Claude Opus 4.8	Anthropic	79,3 %	28 mai 2026	✅ Mesuré
8	Claude Sonnet 4.6	Anthropic	79,3 %	17 février 2026	✅ Mesuré
9	GPT-5.3 Instant	OpenAI	78,6 %	—	✅ Mesuré
10	Claude Fable 5	Anthropic	78,6 %	9 juin 2026	✅ Mesuré
11	Kimi K2.6	Moonshot AI	78,6 %	—	✅ Mesuré
12	Claude Opus 4.5	Anthropic	78,5 %	24 novembre 2025	✅ Mesuré
13	Claude Opus 4.6	Anthropic	78,2 %	7 avril 2026	✅ Mesuré
14	GPT-5.3 Codex	OpenAI	78,2 %	5 février 2026	✅ Mesuré
15	Gemini 3.5 Flash	Google	78,2 %	19 mai 2026	✅ Mesuré
16	Qwen3.6 Plus	Qwen	78,2 %	31 mars 2026	✅ Mesuré
17	Kimi K2.5	Moonshot AI	77,9 %	—	✅ Mesuré
18	GPT-5.4	OpenAI	77,5 %	5 mars 2026	✅ Mesuré
19	Gemini 3.1 Pro Preview	Google	76,5 %	19 février 2026	✅ Mesuré
20	Claude Opus 4.1	Anthropic	76,1 %	5 août 2025	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 71,7 %.

Notre analyse

Un score élevé sur LiveBench: Coding indique une bonne aptitude à produire du code correct pour des problèmes de concours récents, dans un cadre où la réponse peut être vérifiée automatiquement. La métrique ne repose pas sur un juge LLM, ce qui renforce la rigueur de l’évaluation lorsque les résultats sont effectivement mesurés selon le protocole du benchmark. Dans la base considérée, 76 modèles sont évalués, avec un score médian de 72 %, et GPT-5.2 Codex (OpenAI) atteint le meilleur résultat à 84 %, ce qui suggère une avance mesurable mais non absolue sur l’ensemble du classement.

Plusieurs limites restent importantes. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les interpréter avec prudence. La portée du benchmark reste centrée sur la génération et la complétion de code à partir de concours de programmation, et ne couvre pas nécessairement le développement logiciel complet, la maintenance, l’intégration ou le travail sur de grands dépôts. Le recours à des problèmes récents vise à limiter la contamination, sans l’exclure totalement. Le niveau médian relativement élevé peut aussi signaler une progression générale des modèles, voire un début de saturation sur certaines tâches.

Sources des scores : livebench.

Coding

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench