Code & programmation

LiveCodeBench

LiveCodeBench est un benchmark d’évaluation des modèles de langage pour le code, publié en 2024 par Naman Jain et al. Il vise à mesurer la capacité des modèles à résoudre des problèmes de programmation récents, avec un accent sur la génération de code correct, la réparation, le…

Son intérêt principal tient à sa conception évolutive et à son objectif de limiter la contamination des données. Les problèmes proviennent de concours de programmation et sont datés, afin d’évaluer les modèles sur des tâches apparues après leur période d’entraînement supposée.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Naman Jain et al.
Capacités mesurées	code, généraliste, raisonnement
Modalité	Texte
Type de questions	génération de code, réparation de code, exécution de code et prédiction de sortie de tests
Métrique d'évaluation	pass@1 / accuracy selon la tâche
Accès	Public
Langues	anglais
Taille du jeu	évolutif ; plusieurs centaines de problèmes de programmation compétitive
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek-V4-Pro-Max	DeepSeek	93,5 %	23 avril 2026	Auto-déclaré
2	DeepSeek-V4-Flash-Max	DeepSeek	91,6 %	23 avril 2026	Auto-déclaré
3	DeepSeek-V3.2	DeepSeek	83,3 %	1 décembre 2025	Auto-déclaré
4	DeepSeek-V3.2 (Thinking)	DeepSeek	83,3 %	1 décembre 2025	Auto-déclaré
5	MiniMax M2	MiniMax	83,0 %	27 octobre 2025	Auto-déclaré
6	LongCat-Flash-Thinking-2601	Meituan	82,8 %	14 janvier 2026	Auto-déclaré
7	Nemotron 3 Super (120B A12B)	NVIDIA	81,2 %	11 mars 2026	Auto-déclaré
8	Grok-3 Mini	xAI	80,4 %	17 février 2025	Auto-déclaré
9	Grok 4 Fast	xAI	80,0 %	28 août 2025	Auto-déclaré
10	Grok-3	xAI	79,4 %	17 février 2025	Auto-déclaré
11	Grok-4 Heavy	xAI	79,4 %	10 juillet 2025	Auto-déclaré
12	LongCat-Flash-Thinking	Meituan	79,4 %	22 septembre 2025	Auto-déclaré
13	Grok-4	xAI	79,0 %	9 juillet 2025	Auto-déclaré
14	MiniMax M2.1	MiniMax	78,0 %	23 décembre 2025	Auto-déclaré
15	Nova 2 Pro	Amazon	74,6 %	2 décembre 2025	Auto-déclaré
16	DeepSeek-V3.2-Exp	DeepSeek	74,1 %	29 septembre 2025	Auto-déclaré
17	DeepSeek-R1-0528	DeepSeek	73,3 %	28 mai 2025	Auto-déclaré
18	GLM-4.5	Zhipu AI	72,9 %	28 juillet 2025	Auto-déclaré
19	Nemotron Nano 9B v2	NVIDIA	71,1 %	18 août 2025	Auto-déclaré
20	Nova 2 Lite	Amazon	71,0 %	2 décembre 2025	Auto-déclaré

Classement établi sur 72 modèles évalués, dont 62 de grands éditeurs. Score médian de l'ensemble : 55,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench indique une forte capacité à traiter des problèmes de programmation compétitive récents, en particulier lorsque le modèle doit produire une solution correcte dès le premier essai ou répondre précisément à une tâche d’exécution. Le benchmark couvre plusieurs scénarios, ce qui donne une lecture plus large que la seule génération de code. Dans la base considérée, le classement distingue nettement les modèles les plus performants, avec DeepSeek-V4-Pro-Max en tête, tandis que le score médian signale un niveau global encore contrasté.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement indépendantes. LiveCodeBench réduit le risque de contamination grâce à l’ajout continu de problèmes datés, mais ne l’annule pas nécessairement pour tous les modèles et toutes les périodes d’entraînement. Sa portée reste centrée sur des tâches de programmation compétitive en anglais, ce qui ne couvre pas toute l’ingénierie logicielle réelle.

Sources des scores : llm-stats.

LiveCodeBench

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench