LiveCodeBench v5
LiveCodeBench v5 est un benchmark d’évaluation du code conçu par LiveCodeBench, avec des chercheurs de UC Berkeley, MIT et Cornell, dont Naman Jain et al. Il vise à mesurer les capacités des grands modèles de langage sur des tâches de programmation issues de concours récents.
LiveCodeBench v5 est un benchmark d’évaluation du code conçu par LiveCodeBench, avec des chercheurs de UC Berkeley, MIT et Cornell, dont Naman Jain et al. Il vise à mesurer les capacités des grands modèles de langage sur des tâches de programmation issues de concours récents.
Le benchmark couvre plusieurs scénarios complémentaires : génération de code, auto-réparation, exécution de code et prédiction de sortie de tests. Son intérêt central est d’évaluer les modèles sur des problèmes datés, afin de limiter la contamination par des données déjà vues pendant l’entraînement.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | LiveCodeBench (UC Berkeley, MIT, Cornell - Naman Jain et al.) |
| Capacités mesurées | Evaluation holistique et sans contamination du code : generation, auto-reparation, execution de code et prediction de sortie de tests |
| Modalité | Texte |
| Type de questions | Problemes de programmation competitive (generation de code, auto-reparation, prediction de sortie de tests, execution de code) |
| Métrique d'évaluation | pass@1 |
| Accès | Public |
| Langues | Anglais (enonces), code Python |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.5 Pro | 75,6 % | 20 mai 2025 | Auto-déclaré | |
| 2 | Gemini 2.5 Flash | 63,9 % | 20 mai 2025 | Auto-déclaré | |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 61,4 % | 22 septembre 2025 | Auto-déclaré |
| 4 | MiniCPM-SALA | OpenBMB | 60,5 % | 11 février 2026 | Auto-déclaré |
| 5 | Gemini 2.0 Flash-Lite | 28,9 % | 5 février 2025 | Auto-déclaré | |
| 6 | Gemma 3n E4B Instructed | 25,7 % | 26 juin 2025 | Auto-déclaré | |
| 7 | Gemma 3n E4B Instructed LiteRT Preview | 25,7 % | 20 mai 2025 | Auto-déclaré | |
| 8 | Gemma 3n E2B Instructed | 18,6 % | 26 juin 2025 | Auto-déclaré | |
| 9 | Gemma 3n E2B Instructed LiteRT (Preview) | 18,6 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 28,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LiveCodeBench v5 indique qu’un modèle parvient à produire, corriger ou raisonner sur du code Python avec une bonne robustesse dans un cadre de programmation compétitive. La métrique pass@1 valorise la première réponse correcte, ce qui rend l’évaluation exigeante pour les systèmes qui doivent résoudre le problème sans essais multiples. La présence de problèmes collectés en continu depuis LeetCode, AtCoder et CodeForces, avec dates de publication, renforce la rigueur contre la contamination, même si la fiabilité pratique des résultats reste limitée par le fait que les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le classement montre un écart net entre le meilleur modèle recensé, Gemini 2.5 Pro à 76 %, et une médiane à 29 % sur 9 modèles, ce qui suggère une différenciation encore forte et peu de saturation globale. La portée reste toutefois spécialisée : énoncés en anglais, code Python et problèmes de programmation compétitive, sans couvrir tout le développement logiciel réel.
Sources des scores : llm-stats.