Code & programmation

LiveCodeBench Pro

LiveCodeBench Pro est un benchmark d’évaluation des grands modèles de langage pour le code, centré sur la résolution de problèmes de programmation compétitive. Créé en 2025 par l’équipe LiveCodeBench Pro, dans une collaboration académique incluant Sanjeev Arora et Pramod Viswanath, il…

Le benchmark mesure surtout le raisonnement algorithmique, la capacité à produire du code correct et l’analyse des échecs. Son classement en Elo, complété par pass@1, vise à comparer les modèles sur une échelle relative proche de la culture Codeforces.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Équipe LiveCodeBench Pro (collaboration académique, dont Sanjeev Arora et Pramod Viswanath)
Capacités mesurées	Raisonnement algorithmique en programmation compétitive, avec annotations par des médaillés d'olympiades et analyse fine des échecs
Modalité	Texte
Type de questions	résolution de problèmes de programmation compétitive
Métrique d'évaluation	classement Elo (MAP bayésien, échelle Codeforces) et pass@1
Accès	Public
Langues	anglais (énoncés) + code
Taille du jeu	584 problèmes de concours (mis à jour en continu)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3.1 Pro Preview	Google	2 886	19 février 2026	Auto-déclaré
2	Gemini 3 Pro	Google	2 439	18 novembre 2025	Auto-déclaré
3	Muse Spark	Meta	2 400	8 avril 2026	Auto-déclaré
4	Gemini 3 Flash	Google	2 316	17 décembre 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench Pro indique qu’un modèle résout efficacement des problèmes de programmation compétitive en une tentative et se situe haut dans un classement relatif de type Elo. La présence d’annotations par des médaillés d’olympiades et l’analyse fine des échecs renforcent l’intérêt qualitatif du benchmark, mais la fiabilité opérationnelle dépend aussi de la source des résultats, majoritairement auto-déclarés par les éditeurs dans la base. Le score médian de 81% et le meilleur résultat à 96%, obtenu par Gemini 3.1 Pro Preview, suggèrent une forte performance des modèles suivis, tout en appelant à surveiller une possible saturation sur les modèles les plus avancés. La nature publique du benchmark et l’usage de problèmes de concours exposent aussi à un risque de contamination, notamment si des énoncés ont circulé dans les données d’entraînement. Sa portée reste ciblée : il mesure le raisonnement algorithmique en anglais et en code, pas l’ensemble des compétences de développement logiciel.

Sources des scores : llm-stats.

LiveCodeBench Pro

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench