LiveCodeBench v5

LiveCodeBench v5 est un benchmark d’évaluation du code conçu par LiveCodeBench, avec des chercheurs de UC Berkeley, MIT et Cornell, dont Naman Jain et al. Il vise à mesurer les capacités des grands modèles de langage sur des tâches de programmation issues de concours récents.

LiveCodeBench v5 est un benchmark d’évaluation du code conçu par LiveCodeBench, avec des chercheurs de UC Berkeley, MIT et Cornell, dont Naman Jain et al. Il vise à mesurer les capacités des grands modèles de langage sur des tâches de programmation issues de concours récents.

Le benchmark couvre plusieurs scénarios complémentaires : génération de code, auto-réparation, exécution de code et prédiction de sortie de tests. Son intérêt central est d’évaluer les modèles sur des problèmes datés, afin de limiter la contamination par des données déjà vues pendant l’entraînement.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLiveCodeBench (UC Berkeley, MIT, Cornell - Naman Jain et al.)
Capacités mesuréesEvaluation holistique et sans contamination du code : generation, auto-reparation, execution de code et prediction de sortie de tests
ModalitéTexte
Type de questionsProblemes de programmation competitive (generation de code, auto-reparation, prediction de sortie de tests, execution de code)
Métrique d'évaluationpass@1
AccèsPublic
LanguesAnglais (enonces), code Python
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.5 ProGoogle75,6 %20 mai 2025Auto-déclaré
2Gemini 2.5 FlashGoogle63,9 %20 mai 2025Auto-déclaré
3Qwen3 VL 235B A22B InstructQwen61,4 %22 septembre 2025Auto-déclaré
4MiniCPM-SALAOpenBMB60,5 %11 février 2026Auto-déclaré
5Gemini 2.0 Flash-LiteGoogle28,9 %5 février 2025Auto-déclaré
6Gemma 3n E4B InstructedGoogle25,7 %26 juin 2025Auto-déclaré
7Gemma 3n E4B Instructed LiteRT PreviewGoogle25,7 %20 mai 2025Auto-déclaré
8Gemma 3n E2B InstructedGoogle18,6 %26 juin 2025Auto-déclaré
9Gemma 3n E2B Instructed LiteRT (Preview)Google18,6 %20 mai 2025Auto-déclaré

Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 28,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench v5 indique qu’un modèle parvient à produire, corriger ou raisonner sur du code Python avec une bonne robustesse dans un cadre de programmation compétitive. La métrique pass@1 valorise la première réponse correcte, ce qui rend l’évaluation exigeante pour les systèmes qui doivent résoudre le problème sans essais multiples. La présence de problèmes collectés en continu depuis LeetCode, AtCoder et CodeForces, avec dates de publication, renforce la rigueur contre la contamination, même si la fiabilité pratique des résultats reste limitée par le fait que les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le classement montre un écart net entre le meilleur modèle recensé, Gemini 2.5 Pro à 76 %, et une médiane à 29 % sur 9 modèles, ce qui suggère une différenciation encore forte et peu de saturation globale. La portée reste toutefois spécialisée : énoncés en anglais, code Python et problèmes de programmation compétitive, sans couvrir tout le développement logiciel réel.


Sources des scores : llm-stats.