Connaissances & sciences

LiveCodeBench v5

LiveCodeBench v5 est un benchmark d’évaluation du code conçu par LiveCodeBench, avec des chercheurs de UC Berkeley, MIT et Cornell, dont Naman Jain et al. Il vise à mesurer les capacités des grands modèles de langage sur des tâches de programmation issues de concours récents.

Le benchmark couvre plusieurs scénarios complémentaires : génération de code, auto-réparation, exécution de code et prédiction de sortie de tests. Son intérêt central est d’évaluer les modèles sur des problèmes datés, afin de limiter la contamination par des données déjà vues pendant l’entraînement.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	LiveCodeBench (UC Berkeley, MIT, Cornell - Naman Jain et al.)
Capacités mesurées	Evaluation holistique et sans contamination du code : generation, auto-reparation, execution de code et prediction de sortie de tests
Modalité	Texte
Type de questions	Problemes de programmation competitive (generation de code, auto-reparation, prediction de sortie de tests, execution de code)
Métrique d'évaluation	pass@1
Accès	Public
Langues	Anglais (enonces), code Python
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.5 Pro	Google	75,6 %	20 mai 2025	Auto-déclaré
2	Gemini 2.5 Flash	Google	63,9 %	20 mai 2025	Auto-déclaré
3	Qwen3 VL 235B A22B Instruct	Qwen	61,4 %	22 septembre 2025	Auto-déclaré
4	MiniCPM-SALA	OpenBMB	60,5 %	11 février 2026	Auto-déclaré
5	Gemini 2.0 Flash-Lite	Google	28,9 %	5 février 2025	Auto-déclaré
6	Gemma 3n E4B Instructed	Google	25,7 %	26 juin 2025	Auto-déclaré
7	Gemma 3n E4B Instructed LiteRT Preview	Google	25,7 %	20 mai 2025	Auto-déclaré
8	Gemma 3n E2B Instructed	Google	18,6 %	26 juin 2025	Auto-déclaré
9	Gemma 3n E2B Instructed LiteRT (Preview)	Google	18,6 %	20 mai 2025	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 28,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench v5 indique qu’un modèle parvient à produire, corriger ou raisonner sur du code Python avec une bonne robustesse dans un cadre de programmation compétitive. La métrique pass@1 valorise la première réponse correcte, ce qui rend l’évaluation exigeante pour les systèmes qui doivent résoudre le problème sans essais multiples. La présence de problèmes collectés en continu depuis LeetCode, AtCoder et CodeForces, avec dates de publication, renforce la rigueur contre la contamination, même si la fiabilité pratique des résultats reste limitée par le fait que les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le classement montre un écart net entre le meilleur modèle recensé, Gemini 2.5 Pro à 76 %, et une médiane à 29 % sur 9 modèles, ce qui suggère une différenciation encore forte et peu de saturation globale. La portée reste toutefois spécialisée : énoncés en anglais, code Python et problèmes de programmation compétitive, sans couvrir tout le développement logiciel réel.

Sources des scores : llm-stats.

LiveCodeBench v5

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23