LiveBench
LiveBench est un benchmark généraliste pour grands modèles de langage publié en 2024 par l’équipe LiveBench, avec Abacus.AI, NYU et Colin White et al. Il vise à mesurer des capacités variées, notamment en mathématiques, code, raisonnement, langue, analyse de données et suivi…
LiveBench est un benchmark généraliste pour grands modèles de langage publié en 2024 par l’équipe LiveBench, avec Abacus.AI, NYU et Colin White et al. Il vise à mesurer des capacités variées, notamment en mathématiques, code, raisonnement, langue, analyse de données et suivi d’instructions.
Son rôle est de fournir une évaluation difficile et moins exposée à la contamination des jeux de test. Les questions sont renouvelées mensuellement à partir de sources récentes, avec des réponses vérifiables et une correction automatique fondée sur une vérité-terrain objective.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Équipe LiveBench (Abacus.AI, NYU et al. ; Colin White et al.) |
| Capacités mesurées | Évaluation généraliste multi-catégories : maths, code, raisonnement, langue, analyse de données et suivi d'instructions. |
| Modalité | Texte |
| Type de questions | Tâches variées à réponses ouvertes à correction objective (6 catégories) |
| Métrique d'évaluation | Exactitude (score automatique sur vérité-terrain) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | ~18 tâches réparties sur 6 catégories (taille variable, mise à jour mensuelle) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | o3-mini | OpenAI | 84,6 % | 30 janvier 2025 | Auto-déclaré |
| 2 | GPT-5.5 | OpenAI | 80,7 % | 23 avril 2026 | n.d. |
| 3 | GPT-5.4 | OpenAI | 80,3 % | 5 mars 2026 | n.d. |
| 4 | Gemini 3.1 Pro Preview | 79,9 % | 19 février 2026 | n.d. | |
| 5 | Claude Fable 5 | Anthropic | 78,3 % | 9 juin 2026 | n.d. |
| 6 | Claude Opus 4.8 | Anthropic | 77,2 % | 28 mai 2026 | n.d. |
| 7 | Qwen3 235B A22B | Qwen | 77,1 % | 25 juillet 2025 | Auto-déclaré |
| 8 | Claude Opus 4.7 | Anthropic | 76,9 % | 12 mai 2026 | n.d. |
| 9 | Kimi K2 Instruct | Moonshot AI | 76,4 % | 11 juillet 2025 | Auto-déclaré |
| 10 | Kimi K2-Instruct-0905 | Moonshot AI | 76,4 % | 5 septembre 2025 | Auto-déclaré |
| 11 | Claude Opus 4.6 | Anthropic | 76,3 % | 7 avril 2026 | n.d. |
| 12 | Claude Opus 4.5 | Anthropic | 76,0 % | 24 novembre 2025 | n.d. |
| 13 | Claude Sonnet 4.6 | Anthropic | 75,5 % | 17 février 2026 | n.d. |
| 14 | Gemini 3.5 Flash | 75,0 % | 19 mai 2026 | n.d. | |
| 15 | Qwen3 32B | Qwen | 74,9 % | 29 avril 2025 | Auto-déclaré |
| 16 | GPT-5.2 | OpenAI | 74,8 % | 11 décembre 2025 | n.d. |
| 17 | GPT-5.2 Codex | OpenAI | 74,3 % | 14 janvier 2026 | n.d. |
| 18 | Qwen3 30B A3B | Qwen | 74,3 % | 29 avril 2025 | Auto-déclaré |
| 19 | Qwen3.7 Max | Qwen | 74,3 % | 19 mai 2026 | n.d. |
| 20 | DeepSeek-V4-Pro-Max | DeepSeek | 73,6 % | 23 avril 2026 | n.d. |
Classement établi sur 38 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 73,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LiveBench indique une bonne capacité à produire des réponses exactes sur des tâches ouvertes mais objectivement vérifiables, dans plusieurs domaines d’usage des LLM. Le meilleur score recensé dans la base, 85% pour o3-mini (OpenAI), se situe au-dessus d’une médiane de 74% sur 38 modèles, ce qui suggère un classement encore discriminant plutôt qu’un benchmark totalement saturé. La rigueur vient de la correction automatique sur vérité-terrain et du renouvellement mensuel, conçu pour limiter la contamination. L’interprétation reste toutefois prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée linguistique, centrée sur l’anglais, et au périmètre des tâches, généraliste mais organisé autour de six catégories. Le classement met surtout en évidence les modèles capables de maintenir une performance homogène entre raisonnement, code, mathématiques, langue, données et suivi d’instructions.
Sources des scores : llm-stats.