LiveCodeBench Pro

LiveCodeBench Pro est un benchmark d’évaluation des grands modèles de langage pour le code, centré sur la résolution de problèmes de programmation compétitive. Créé en 2025 par l’équipe LiveCodeBench Pro, dans une collaboration académique incluant Sanjeev Arora et Pramod Viswanath, il…

LiveCodeBench Pro est un benchmark d’évaluation des grands modèles de langage pour le code, centré sur la résolution de problèmes de programmation compétitive. Créé en 2025 par l’équipe LiveCodeBench Pro, dans une collaboration académique incluant Sanjeev Arora et Pramod Viswanath, il s’appuie sur des tâches issues de concours et de plateformes comme LeetCode, AtCoder et CodeForces.

Le benchmark mesure surtout le raisonnement algorithmique, la capacité à produire du code correct et l’analyse des échecs. Son classement en Elo, complété par pass@1, vise à comparer les modèles sur une échelle relative proche de la culture Codeforces.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkÉquipe LiveCodeBench Pro (collaboration académique, dont Sanjeev Arora et Pramod Viswanath)
Capacités mesuréesRaisonnement algorithmique en programmation compétitive, avec annotations par des médaillés d'olympiades et analyse fine des échecs
ModalitéTexte
Type de questionsrésolution de problèmes de programmation compétitive
Métrique d'évaluationclassement Elo (MAP bayésien, échelle Codeforces) et pass@1
AccèsPublic
Languesanglais (énoncés) + code
Taille du jeu584 problèmes de concours (mis à jour en continu)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3.1 Pro PreviewGoogle2 88619 février 2026Auto-déclaré
2Gemini 3 ProGoogle2 43918 novembre 2025Auto-déclaré
3Muse SparkMeta2 4008 avril 2026Auto-déclaré
4Gemini 3 FlashGoogle2 31617 décembre 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveCodeBench Pro indique qu’un modèle résout efficacement des problèmes de programmation compétitive en une tentative et se situe haut dans un classement relatif de type Elo. La présence d’annotations par des médaillés d’olympiades et l’analyse fine des échecs renforcent l’intérêt qualitatif du benchmark, mais la fiabilité opérationnelle dépend aussi de la source des résultats, majoritairement auto-déclarés par les éditeurs dans la base. Le score médian de 81% et le meilleur résultat à 96%, obtenu par Gemini 3.1 Pro Preview, suggèrent une forte performance des modèles suivis, tout en appelant à surveiller une possible saturation sur les modèles les plus avancés. La nature publique du benchmark et l’usage de problèmes de concours exposent aussi à un risque de contamination, notamment si des énoncés ont circulé dans les données d’entraînement. Sa portée reste ciblée : il mesure le raisonnement algorithmique en anglais et en code, pas l’ensemble des compétences de développement logiciel.


Sources des scores : llm-stats.