LiveBench

LiveBench est un benchmark généraliste pour grands modèles de langage publié en 2024 par l’équipe LiveBench, avec Abacus.AI, NYU et Colin White et al. Il vise à mesurer des capacités variées, notamment en mathématiques, code, raisonnement, langue, analyse de données et suivi…

LiveBench est un benchmark généraliste pour grands modèles de langage publié en 2024 par l’équipe LiveBench, avec Abacus.AI, NYU et Colin White et al. Il vise à mesurer des capacités variées, notamment en mathématiques, code, raisonnement, langue, analyse de données et suivi d’instructions.

Son rôle est de fournir une évaluation difficile et moins exposée à la contamination des jeux de test. Les questions sont renouvelées mensuellement à partir de sources récentes, avec des réponses vérifiables et une correction automatique fondée sur une vérité-terrain objective.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkÉquipe LiveBench (Abacus.AI, NYU et al. ; Colin White et al.)
Capacités mesuréesÉvaluation généraliste multi-catégories : maths, code, raisonnement, langue, analyse de données et suivi d'instructions.
ModalitéTexte
Type de questionsTâches variées à réponses ouvertes à correction objective (6 catégories)
Métrique d'évaluationExactitude (score automatique sur vérité-terrain)
AccèsPublic
LanguesAnglais
Taille du jeu~18 tâches réparties sur 6 catégories (taille variable, mise à jour mensuelle)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1o3-miniOpenAI84,6 %30 janvier 2025Auto-déclaré
2GPT-5.5OpenAI80,7 %23 avril 2026n.d.
3GPT-5.4OpenAI80,3 %5 mars 2026n.d.
4Gemini 3.1 Pro PreviewGoogle79,9 %19 février 2026n.d.
5Claude Fable 5Anthropic78,3 %9 juin 2026n.d.
6Claude Opus 4.8Anthropic77,2 %28 mai 2026n.d.
7Qwen3 235B A22BQwen77,1 %25 juillet 2025Auto-déclaré
8Claude Opus 4.7Anthropic76,9 %12 mai 2026n.d.
9Kimi K2 InstructMoonshot AI76,4 %11 juillet 2025Auto-déclaré
10Kimi K2-Instruct-0905Moonshot AI76,4 %5 septembre 2025Auto-déclaré
11Claude Opus 4.6Anthropic76,3 %7 avril 2026n.d.
12Claude Opus 4.5Anthropic76,0 %24 novembre 2025n.d.
13Claude Sonnet 4.6Anthropic75,5 %17 février 2026n.d.
14Gemini 3.5 FlashGoogle75,0 %19 mai 2026n.d.
15Qwen3 32BQwen74,9 %29 avril 2025Auto-déclaré
16GPT-5.2OpenAI74,8 %11 décembre 2025n.d.
17GPT-5.2 CodexOpenAI74,3 %14 janvier 2026n.d.
18Qwen3 30B A3BQwen74,3 %29 avril 2025Auto-déclaré
19Qwen3.7 MaxQwen74,3 %19 mai 2026n.d.
20DeepSeek-V4-Pro-MaxDeepSeek73,6 %23 avril 2026n.d.

Classement établi sur 38 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 73,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveBench indique une bonne capacité à produire des réponses exactes sur des tâches ouvertes mais objectivement vérifiables, dans plusieurs domaines d’usage des LLM. Le meilleur score recensé dans la base, 85% pour o3-mini (OpenAI), se situe au-dessus d’une médiane de 74% sur 38 modèles, ce qui suggère un classement encore discriminant plutôt qu’un benchmark totalement saturé. La rigueur vient de la correction automatique sur vérité-terrain et du renouvellement mensuel, conçu pour limiter la contamination. L’interprétation reste toutefois prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée linguistique, centrée sur l’anglais, et au périmètre des tâches, généraliste mais organisé autour de six catégories. Le classement met surtout en évidence les modèles capables de maintenir une performance homogène entre raisonnement, code, mathématiques, langue, données et suivi d’instructions.


Sources des scores : llm-stats.