LiveCodeBench

LiveCodeBench est un benchmark d’évaluation des modèles de langage pour le code, publié en 2024 par Naman Jain et al. Il vise à mesurer la capacité des modèles à résoudre des problèmes de programmation récents, avec un accent sur la génération de code correct, la réparation, le…

LiveCodeBench est un benchmark d’évaluation des modèles de langage pour le code, publié en 2024 par Naman Jain et al. Il vise à mesurer la capacité des modèles à résoudre des problèmes de programmation récents, avec un accent sur la génération de code correct, la réparation, le raisonnement sur l’exécution et la prédiction de sorties de tests.

Son intérêt principal tient à sa conception évolutive et à son objectif de limiter la contamination des données. Les problèmes proviennent de concours de programmation et sont datés, afin d’évaluer les modèles sur des tâches apparues après leur période d’entraînement supposée.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkNaman Jain et al.
Capacités mesuréescode, généraliste, raisonnement
ModalitéTexte
Type de questionsgénération de code, réparation de code, exécution de code et prédiction de sortie de tests
Métrique d'évaluationpass@1 / accuracy selon la tâche
AccèsPublic
Languesanglais
Taille du jeuévolutif ; plusieurs centaines de problèmes de programmation compétitive
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek-V4-Pro-MaxDeepSeek93,5 %23 avril 2026Auto-déclaré
2DeepSeek-V4-Flash-MaxDeepSeek91,6 %23 avril 2026Auto-déclaré
3DeepSeek-V3.2DeepSeek83,3 %1 décembre 2025Auto-déclaré
4DeepSeek-V3.2 (Thinking)DeepSeek83,3 %1 décembre 2025Auto-déclaré
5MiniMax M2MiniMax83,0 %27 octobre 2025Auto-déclaré
6LongCat-Flash-Thinking-2601Meituan82,8 %14 janvier 2026Auto-déclaré
7Nemotron 3 Super (120B A12B)NVIDIA81,2 %11 mars 2026Auto-déclaré
8Grok-3 MinixAI80,4 %17 février 2025Auto-déclaré
9Grok 4 FastxAI80,0 %28 août 2025Auto-déclaré
10Grok-3xAI79,4 %17 février 2025Auto-déclaré
11Grok-4 HeavyxAI79,4 %10 juillet 2025Auto-déclaré
12LongCat-Flash-ThinkingMeituan79,4 %22 septembre 2025Auto-déclaré
13Grok-4xAI79,0 %9 juillet 2025Auto-déclaré
14MiniMax M2.1MiniMax78,0 %23 décembre 2025Auto-déclaré
15Nova 2 ProAmazon74,6 %2 décembre 2025Auto-déclaré
16DeepSeek-V3.2-ExpDeepSeek74,1 %29 septembre 2025Auto-déclaré
17DeepSeek-R1-0528DeepSeek73,3 %28 mai 2025Auto-déclaré
18GLM-4.5Zhipu AI72,9 %28 juillet 2025Auto-déclaré
19Nemotron Nano 9B v2NVIDIA71,1 %18 août 2025Auto-déclaré
20Nova 2 LiteAmazon71,0 %2 décembre 2025Auto-déclaré

Classement établi sur 72 modèles évalués, dont 62 de grands éditeurs. Score médian de l'ensemble : 55,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench indique une forte capacité à traiter des problèmes de programmation compétitive récents, en particulier lorsque le modèle doit produire une solution correcte dès le premier essai ou répondre précisément à une tâche d’exécution. Le benchmark couvre plusieurs scénarios, ce qui donne une lecture plus large que la seule génération de code. Dans la base considérée, le classement distingue nettement les modèles les plus performants, avec DeepSeek-V4-Pro-Max en tête, tandis que le score médian signale un niveau global encore contrasté.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement indépendantes. LiveCodeBench réduit le risque de contamination grâce à l’ajout continu de problèmes datés, mais ne l’annule pas nécessairement pour tous les modèles et toutes les périodes d’entraînement. Sa portée reste centrée sur des tâches de programmation compétitive en anglais, ce qui ne couvre pas toute l’ingénierie logicielle réelle.


Sources des scores : llm-stats.