LiveCodeBench v6
LiveCodeBench v6 est un benchmark d’évaluation des grands modèles de langage pour le code, conçu par l’équipe LiveCodeBench, avec des contributions de UC Berkeley, MIT, Cornell et Naman Jain et al. Il vise une mesure holistique et sans contamination des capacités liées à la programmation.
LiveCodeBench v6 est un benchmark d’évaluation des grands modèles de langage pour le code, conçu par l’équipe LiveCodeBench, avec des contributions de UC Berkeley, MIT, Cornell et Naman Jain et al. Il vise une mesure holistique et sans contamination des capacités liées à la programmation.
Le benchmark s’appuie sur des problèmes récents de concours de programmation et couvre plusieurs scénarios, dont la génération de code, l’auto-réparation, l’exécution de code et la prédiction de sortie de tests. Son rôle est d’estimer la capacité des modèles à résoudre des tâches de code sur des exercices publiés après leur période d’entraînement.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Équipe LiveCodeBench (UC Berkeley, MIT, Cornell et al. ; Naman Jain et al.) |
| Capacités mesurées | Génération de code et capacités connexes (auto-réparation, exécution, prédiction de sortie de tests), évaluation holistique et sans contamination. |
| Modalité | Texte |
| Type de questions | Génération de code (et auto-réparation, exécution de code, prédiction de sortie de tests) |
| Métrique d'évaluation | pass@1 (et pass@5) |
| Accès | Public |
| Licence | MIT |
| Langues | Python (problèmes de programmation compétitive) |
| Taille du jeu | 1 055 problèmes (publiés de mai 2023 à avril 2025) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 91,6 % | 19 mai 2026 | Auto-déclaré |
| 2 | Kimi K2.6 | Moonshot AI | 89,6 % | 20 avril 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 89,6 % | 31 mai 2026 | Auto-déclaré |
| 4 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 89,0 % | 4 juin 2026 | Auto-déclaré |
| 5 | Seed 2.0 Pro | bytedance | 87,8 % | 14 février 2026 | Auto-déclaré |
| 6 | MAI-Thinking-1 | Microsoft | 87,7 % | 2 juin 2026 | Auto-déclaré |
| 7 | Qwen3.6 Plus | Qwen | 87,1 % | 31 mars 2026 | Auto-déclaré |
| 8 | Step-3.5-Flash | StepFun | 86,4 % | 2 février 2026 | Auto-déclaré |
| 9 | Kimi K2.5 | Moonshot AI | 85,0 % | 27 janvier 2026 | Auto-déclaré |
| 10 | GLM-4.7 | Zhipu AI | 84,9 % | 22 décembre 2025 | Auto-déclaré |
| 11 | Qwen3.6-27B | Qwen | 83,9 % | 21 avril 2026 | Auto-déclaré |
| 12 | Qwen3.5-397B-A17B | Qwen | 83,6 % | 16 février 2026 | Auto-déclaré |
| 13 | Kimi K2 0905 | Moonshot AI | 83,1 % | 5 septembre 2025 | Auto-déclaré |
| 14 | GLM-4.6 | Zhipu AI | 82,8 % | 30 septembre 2025 | Auto-déclaré |
| 15 | GPT OSS 120B | OpenAI | 81,9 % | 5 août 2025 | Auto-déclaré |
| 16 | Seed 2.0 Lite | bytedance | 81,7 % | 14 février 2026 | Auto-déclaré |
| 17 | K-EXAONE-236B-A23B | LG AI Research | 80,7 % | 31 décembre 2025 | Auto-déclaré |
| 18 | Qwen3.5-27B | Qwen | 80,7 % | 24 février 2026 | Auto-déclaré |
| 19 | MiMo-V2-Flash | Xiaomi | 80,6 % | 16 décembre 2025 | Auto-déclaré |
| 20 | Qwen3.6-35B-A3B | Qwen | 80,4 % | 16 avril 2026 | Auto-déclaré |
Classement établi sur 53 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 71,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LiveCodeBench v6 indique une forte capacité à produire du code correct dès la première tentative, avec pass@1 comme métrique principale et pass@5 comme complément. Le classement de la base montre un niveau global déjà élevé, avec un score médian de 72% sur 53 modèles évalués, tandis que Qwen3.7 Max atteint 92%. Cet écart suggère que le benchmark reste discriminant, même si les meilleurs résultats se rapprochent d’une zone de saturation possible pour la génération de code compétitif en Python.
- La rigueur tient à la collecte continue de problèmes récents et datés, issus de LeetCode, AtCoder et CodeForces, afin de limiter la contamination par les données d’entraînement.
- La fiabilité pratique du leaderboard reste à nuancer, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière uniforme par un tiers.
- La portée reste spécialisée : le benchmark évalue surtout des problèmes de programmation compétitive en Python, pas l’ensemble du développement logiciel réel.
Sources des scores : llm-stats.