LiveCodeBench
LiveCodeBench est un benchmark d’évaluation des modèles de langage pour le code, publié en 2024 par Naman Jain et al. Il vise à mesurer la capacité des modèles à résoudre des problèmes de programmation récents, avec un accent sur la génération de code correct, la réparation, le…
LiveCodeBench est un benchmark d’évaluation des modèles de langage pour le code, publié en 2024 par Naman Jain et al. Il vise à mesurer la capacité des modèles à résoudre des problèmes de programmation récents, avec un accent sur la génération de code correct, la réparation, le raisonnement sur l’exécution et la prédiction de sorties de tests.
Son intérêt principal tient à sa conception évolutive et à son objectif de limiter la contamination des données. Les problèmes proviennent de concours de programmation et sont datés, afin d’évaluer les modèles sur des tâches apparues après leur période d’entraînement supposée.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Naman Jain et al. |
| Capacités mesurées | code, généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | génération de code, réparation de code, exécution de code et prédiction de sortie de tests |
| Métrique d'évaluation | pass@1 / accuracy selon la tâche |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | évolutif ; plusieurs centaines de problèmes de programmation compétitive |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Pro-Max | DeepSeek | 93,5 % | 23 avril 2026 | Auto-déclaré |
| 2 | DeepSeek-V4-Flash-Max | DeepSeek | 91,6 % | 23 avril 2026 | Auto-déclaré |
| 3 | DeepSeek-V3.2 | DeepSeek | 83,3 % | 1 décembre 2025 | Auto-déclaré |
| 4 | DeepSeek-V3.2 (Thinking) | DeepSeek | 83,3 % | 1 décembre 2025 | Auto-déclaré |
| 5 | MiniMax M2 | MiniMax | 83,0 % | 27 octobre 2025 | Auto-déclaré |
| 6 | LongCat-Flash-Thinking-2601 | Meituan | 82,8 % | 14 janvier 2026 | Auto-déclaré |
| 7 | Nemotron 3 Super (120B A12B) | NVIDIA | 81,2 % | 11 mars 2026 | Auto-déclaré |
| 8 | Grok-3 Mini | xAI | 80,4 % | 17 février 2025 | Auto-déclaré |
| 9 | Grok 4 Fast | xAI | 80,0 % | 28 août 2025 | Auto-déclaré |
| 10 | Grok-3 | xAI | 79,4 % | 17 février 2025 | Auto-déclaré |
| 11 | Grok-4 Heavy | xAI | 79,4 % | 10 juillet 2025 | Auto-déclaré |
| 12 | LongCat-Flash-Thinking | Meituan | 79,4 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Grok-4 | xAI | 79,0 % | 9 juillet 2025 | Auto-déclaré |
| 14 | MiniMax M2.1 | MiniMax | 78,0 % | 23 décembre 2025 | Auto-déclaré |
| 15 | Nova 2 Pro | Amazon | 74,6 % | 2 décembre 2025 | Auto-déclaré |
| 16 | DeepSeek-V3.2-Exp | DeepSeek | 74,1 % | 29 septembre 2025 | Auto-déclaré |
| 17 | DeepSeek-R1-0528 | DeepSeek | 73,3 % | 28 mai 2025 | Auto-déclaré |
| 18 | GLM-4.5 | Zhipu AI | 72,9 % | 28 juillet 2025 | Auto-déclaré |
| 19 | Nemotron Nano 9B v2 | NVIDIA | 71,1 % | 18 août 2025 | Auto-déclaré |
| 20 | Nova 2 Lite | Amazon | 71,0 % | 2 décembre 2025 | Auto-déclaré |
Classement établi sur 72 modèles évalués, dont 62 de grands éditeurs. Score médian de l'ensemble : 55,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LiveCodeBench indique une forte capacité à traiter des problèmes de programmation compétitive récents, en particulier lorsque le modèle doit produire une solution correcte dès le premier essai ou répondre précisément à une tâche d’exécution. Le benchmark couvre plusieurs scénarios, ce qui donne une lecture plus large que la seule génération de code. Dans la base considérée, le classement distingue nettement les modèles les plus performants, avec DeepSeek-V4-Pro-Max en tête, tandis que le score médian signale un niveau global encore contrasté.
La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement indépendantes. LiveCodeBench réduit le risque de contamination grâce à l’ajout continu de problèmes datés, mais ne l’annule pas nécessairement pour tous les modèles et toutes les périodes d’entraînement. Sa portée reste centrée sur des tâches de programmation compétitive en anglais, ce qui ne couvre pas toute l’ingénierie logicielle réelle.
Sources des scores : llm-stats.