LiveCodeBench Pro
LiveCodeBench Pro est un benchmark d’évaluation des grands modèles de langage pour le code, centré sur la résolution de problèmes de programmation compétitive. Créé en 2025 par l’équipe LiveCodeBench Pro, dans une collaboration académique incluant Sanjeev Arora et Pramod Viswanath, il…
LiveCodeBench Pro est un benchmark d’évaluation des grands modèles de langage pour le code, centré sur la résolution de problèmes de programmation compétitive. Créé en 2025 par l’équipe LiveCodeBench Pro, dans une collaboration académique incluant Sanjeev Arora et Pramod Viswanath, il s’appuie sur des tâches issues de concours et de plateformes comme LeetCode, AtCoder et CodeForces.
Le benchmark mesure surtout le raisonnement algorithmique, la capacité à produire du code correct et l’analyse des échecs. Son classement en Elo, complété par pass@1, vise à comparer les modèles sur une échelle relative proche de la culture Codeforces.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Équipe LiveCodeBench Pro (collaboration académique, dont Sanjeev Arora et Pramod Viswanath) |
| Capacités mesurées | Raisonnement algorithmique en programmation compétitive, avec annotations par des médaillés d'olympiades et analyse fine des échecs |
| Modalité | Texte |
| Type de questions | résolution de problèmes de programmation compétitive |
| Métrique d'évaluation | classement Elo (MAP bayésien, échelle Codeforces) et pass@1 |
| Accès | Public |
| Langues | anglais (énoncés) + code |
| Taille du jeu | 584 problèmes de concours (mis à jour en continu) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 2 886 | 19 février 2026 | Auto-déclaré | |
| 2 | Gemini 3 Pro | 2 439 | 18 novembre 2025 | Auto-déclaré | |
| 3 | Muse Spark | Meta | 2 400 | 8 avril 2026 | Auto-déclaré |
| 4 | Gemini 3 Flash | 2 316 | 17 décembre 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Ce benchmark n'étant pas exprimé en pourcentage, la barre prend le score du premier comme référence (100 %). « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LiveCodeBench Pro indique qu’un modèle résout efficacement des problèmes de programmation compétitive en une tentative et se situe haut dans un classement relatif de type Elo. La présence d’annotations par des médaillés d’olympiades et l’analyse fine des échecs renforcent l’intérêt qualitatif du benchmark, mais la fiabilité opérationnelle dépend aussi de la source des résultats, majoritairement auto-déclarés par les éditeurs dans la base. Le score médian de 81% et le meilleur résultat à 96%, obtenu par Gemini 3.1 Pro Preview, suggèrent une forte performance des modèles suivis, tout en appelant à surveiller une possible saturation sur les modèles les plus avancés. La nature publique du benchmark et l’usage de problèmes de concours exposent aussi à un risque de contamination, notamment si des énoncés ont circulé dans les données d’entraînement. Sa portée reste ciblée : il mesure le raisonnement algorithmique en anglais et en code, pas l’ensemble des compétences de développement logiciel.
Sources des scores : llm-stats.