Connaissances & sciences

LiveCodeBench v6

LiveCodeBench v6 est un benchmark d’évaluation des grands modèles de langage pour le code, conçu par l’équipe LiveCodeBench, avec des contributions de UC Berkeley, MIT, Cornell et Naman Jain et al. Il vise une mesure holistique et sans contamination des capacités liées à la programmation.

Le benchmark s’appuie sur des problèmes récents de concours de programmation et couvre plusieurs scénarios, dont la génération de code, l’auto-réparation, l’exécution de code et la prédiction de sortie de tests. Son rôle est d’estimer la capacité des modèles à résoudre des tâches de code sur des exercices publiés après leur période d’entraînement.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Équipe LiveCodeBench (UC Berkeley, MIT, Cornell et al. ; Naman Jain et al.)
Capacités mesurées	Génération de code et capacités connexes (auto-réparation, exécution, prédiction de sortie de tests), évaluation holistique et sans contamination.
Modalité	Texte
Type de questions	Génération de code (et auto-réparation, exécution de code, prédiction de sortie de tests)
Métrique d'évaluation	pass@1 (et pass@5)
Accès	Public
Licence	MIT
Langues	Python (problèmes de programmation compétitive)
Taille du jeu	1 055 problèmes (publiés de mai 2023 à avril 2025)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	91,6 %	19 mai 2026	Auto-déclaré
2	Kimi K2.6	Moonshot AI	89,6 %	20 avril 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	89,6 %	31 mai 2026	Auto-déclaré
4	Nemotron 3 Ultra (550B A55B)	NVIDIA	89,0 %	4 juin 2026	Auto-déclaré
5	Seed 2.0 Pro	bytedance	87,8 %	14 février 2026	Auto-déclaré
6	MAI-Thinking-1	Microsoft	87,7 %	2 juin 2026	Auto-déclaré
7	Qwen3.6 Plus	Qwen	87,1 %	31 mars 2026	Auto-déclaré
8	Step-3.5-Flash	StepFun	86,4 %	2 février 2026	Auto-déclaré
9	Kimi K2.5	Moonshot AI	85,0 %	27 janvier 2026	Auto-déclaré
10	GLM-4.7	Zhipu AI	84,9 %	22 décembre 2025	Auto-déclaré
11	Qwen3.6-27B	Qwen	83,9 %	21 avril 2026	Auto-déclaré
12	Qwen3.5-397B-A17B	Qwen	83,6 %	16 février 2026	Auto-déclaré
13	Kimi K2 0905	Moonshot AI	83,1 %	5 septembre 2025	Auto-déclaré
14	GLM-4.6	Zhipu AI	82,8 %	30 septembre 2025	Auto-déclaré
15	GPT OSS 120B	OpenAI	81,9 %	5 août 2025	Auto-déclaré
16	Seed 2.0 Lite	bytedance	81,7 %	14 février 2026	Auto-déclaré
17	K-EXAONE-236B-A23B	LG AI Research	80,7 %	31 décembre 2025	Auto-déclaré
18	Qwen3.5-27B	Qwen	80,7 %	24 février 2026	Auto-déclaré
19	MiMo-V2-Flash	Xiaomi	80,6 %	16 décembre 2025	Auto-déclaré
20	Qwen3.6-35B-A3B	Qwen	80,4 %	16 avril 2026	Auto-déclaré

Classement établi sur 53 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 71,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench v6 indique une forte capacité à produire du code correct dès la première tentative, avec pass@1 comme métrique principale et pass@5 comme complément. Le classement de la base montre un niveau global déjà élevé, avec un score médian de 72% sur 53 modèles évalués, tandis que Qwen3.7 Max atteint 92%. Cet écart suggère que le benchmark reste discriminant, même si les meilleurs résultats se rapprochent d’une zone de saturation possible pour la génération de code compétitif en Python.

La rigueur tient à la collecte continue de problèmes récents et datés, issus de LeetCode, AtCoder et CodeForces, afin de limiter la contamination par les données d’entraînement.
La fiabilité pratique du leaderboard reste à nuancer, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière uniforme par un tiers.
La portée reste spécialisée : le benchmark évalue surtout des problèmes de programmation compétitive en Python, pas l’ensemble du développement logiciel réel.

Sources des scores : llm-stats.

LiveCodeBench v6

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench