LiveCodeBench v6

LiveCodeBench v6 est un benchmark d’évaluation des grands modèles de langage pour le code, conçu par l’équipe LiveCodeBench, avec des contributions de UC Berkeley, MIT, Cornell et Naman Jain et al. Il vise une mesure holistique et sans contamination des capacités liées à la programmation.

LiveCodeBench v6 est un benchmark d’évaluation des grands modèles de langage pour le code, conçu par l’équipe LiveCodeBench, avec des contributions de UC Berkeley, MIT, Cornell et Naman Jain et al. Il vise une mesure holistique et sans contamination des capacités liées à la programmation.

Le benchmark s’appuie sur des problèmes récents de concours de programmation et couvre plusieurs scénarios, dont la génération de code, l’auto-réparation, l’exécution de code et la prédiction de sortie de tests. Son rôle est d’estimer la capacité des modèles à résoudre des tâches de code sur des exercices publiés après leur période d’entraînement.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkÉquipe LiveCodeBench (UC Berkeley, MIT, Cornell et al. ; Naman Jain et al.)
Capacités mesuréesGénération de code et capacités connexes (auto-réparation, exécution, prédiction de sortie de tests), évaluation holistique et sans contamination.
ModalitéTexte
Type de questionsGénération de code (et auto-réparation, exécution de code, prédiction de sortie de tests)
Métrique d'évaluationpass@1 (et pass@5)
AccèsPublic
LicenceMIT
LanguesPython (problèmes de programmation compétitive)
Taille du jeu1 055 problèmes (publiés de mai 2023 à avril 2025)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen91,6 %19 mai 2026Auto-déclaré
2Kimi K2.6Moonshot AI89,6 %20 avril 2026Auto-déclaré
3Qwen3.7-PlusQwen89,6 %31 mai 2026Auto-déclaré
4Nemotron 3 Ultra (550B A55B)NVIDIA89,0 %4 juin 2026Auto-déclaré
5Seed 2.0 Probytedance87,8 %14 février 2026Auto-déclaré
6MAI-Thinking-1Microsoft87,7 %2 juin 2026Auto-déclaré
7Qwen3.6 PlusQwen87,1 %31 mars 2026Auto-déclaré
8Step-3.5-FlashStepFun86,4 %2 février 2026Auto-déclaré
9Kimi K2.5Moonshot AI85,0 %27 janvier 2026Auto-déclaré
10GLM-4.7Zhipu AI84,9 %22 décembre 2025Auto-déclaré
11Qwen3.6-27BQwen83,9 %21 avril 2026Auto-déclaré
12Qwen3.5-397B-A17BQwen83,6 %16 février 2026Auto-déclaré
13Kimi K2 0905Moonshot AI83,1 %5 septembre 2025Auto-déclaré
14GLM-4.6Zhipu AI82,8 %30 septembre 2025Auto-déclaré
15GPT OSS 120BOpenAI81,9 %5 août 2025Auto-déclaré
16Seed 2.0 Litebytedance81,7 %14 février 2026Auto-déclaré
17K-EXAONE-236B-A23BLG AI Research80,7 %31 décembre 2025Auto-déclaré
18Qwen3.5-27BQwen80,7 %24 février 2026Auto-déclaré
19MiMo-V2-FlashXiaomi80,6 %16 décembre 2025Auto-déclaré
20Qwen3.6-35B-A3BQwen80,4 %16 avril 2026Auto-déclaré

Classement établi sur 53 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 71,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench v6 indique une forte capacité à produire du code correct dès la première tentative, avec pass@1 comme métrique principale et pass@5 comme complément. Le classement de la base montre un niveau global déjà élevé, avec un score médian de 72% sur 53 modèles évalués, tandis que Qwen3.7 Max atteint 92%. Cet écart suggère que le benchmark reste discriminant, même si les meilleurs résultats se rapprochent d’une zone de saturation possible pour la génération de code compétitif en Python.

  • La rigueur tient à la collecte continue de problèmes récents et datés, issus de LeetCode, AtCoder et CodeForces, afin de limiter la contamination par les données d’entraînement.
  • La fiabilité pratique du leaderboard reste à nuancer, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière uniforme par un tiers.
  • La portée reste spécialisée : le benchmark évalue surtout des problèmes de programmation compétitive en Python, pas l’ensemble du développement logiciel réel.

Sources des scores : llm-stats.