Mathématiques

LiveBench

LiveBench est un benchmark généraliste pour grands modèles de langage publié en 2024 par l’équipe LiveBench, avec Abacus.AI, NYU et Colin White et al. Il vise à mesurer des capacités variées, notamment en mathématiques, code, raisonnement, langue, analyse de données et suivi…

Son rôle est de fournir une évaluation difficile et moins exposée à la contamination des jeux de test. Les questions sont renouvelées mensuellement à partir de sources récentes, avec des réponses vérifiables et une correction automatique fondée sur une vérité-terrain objective.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Équipe LiveBench (Abacus.AI, NYU et al. ; Colin White et al.)
Capacités mesurées	Évaluation généraliste multi-catégories : maths, code, raisonnement, langue, analyse de données et suivi d'instructions.
Modalité	Texte
Type de questions	Tâches variées à réponses ouvertes à correction objective (6 catégories)
Métrique d'évaluation	Exactitude (score automatique sur vérité-terrain)
Accès	Public
Langues	Anglais
Taille du jeu	~18 tâches réparties sur 6 catégories (taille variable, mise à jour mensuelle)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	o3-mini	OpenAI	84,6 %	30 janvier 2025	Auto-déclaré
2	GPT-5.5	OpenAI	80,7 %	23 avril 2026	n.d.
3	GPT-5.4	OpenAI	80,3 %	5 mars 2026	n.d.
4	Gemini 3.1 Pro Preview	Google	79,9 %	19 février 2026	n.d.
5	Claude Fable 5	Anthropic	78,3 %	9 juin 2026	n.d.
6	Claude Opus 4.8	Anthropic	77,2 %	28 mai 2026	n.d.
7	Qwen3 235B A22B	Qwen	77,1 %	25 juillet 2025	Auto-déclaré
8	Claude Opus 4.7	Anthropic	76,9 %	12 mai 2026	n.d.
9	Kimi K2 Instruct	Moonshot AI	76,4 %	11 juillet 2025	Auto-déclaré
10	Kimi K2-Instruct-0905	Moonshot AI	76,4 %	5 septembre 2025	Auto-déclaré
11	Claude Opus 4.6	Anthropic	76,3 %	7 avril 2026	n.d.
12	Claude Opus 4.5	Anthropic	76,0 %	24 novembre 2025	n.d.
13	Claude Sonnet 4.6	Anthropic	75,5 %	17 février 2026	n.d.
14	Gemini 3.5 Flash	Google	75,0 %	19 mai 2026	n.d.
15	Qwen3 32B	Qwen	74,9 %	29 avril 2025	Auto-déclaré
16	GPT-5.2	OpenAI	74,8 %	11 décembre 2025	n.d.
17	GPT-5.2 Codex	OpenAI	74,3 %	14 janvier 2026	n.d.
18	Qwen3 30B A3B	Qwen	74,3 %	29 avril 2025	Auto-déclaré
19	Qwen3.7 Max	Qwen	74,3 %	19 mai 2026	n.d.
20	DeepSeek-V4-Pro-Max	DeepSeek	73,6 %	23 avril 2026	n.d.

Classement établi sur 38 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 73,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveBench indique une bonne capacité à produire des réponses exactes sur des tâches ouvertes mais objectivement vérifiables, dans plusieurs domaines d’usage des LLM. Le meilleur score recensé dans la base, 85% pour o3-mini (OpenAI), se situe au-dessus d’une médiane de 74% sur 38 modèles, ce qui suggère un classement encore discriminant plutôt qu’un benchmark totalement saturé. La rigueur vient de la correction automatique sur vérité-terrain et du renouvellement mensuel, conçu pour limiter la contamination. L’interprétation reste toutefois prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée linguistique, centrée sur l’anglais, et au périmètre des tâches, généraliste mais organisé autour de six catégories. Le classement met surtout en évidence les modèles capables de maintenir une performance homogène entre raisonnement, code, mathématiques, langue, données et suivi d’instructions.

Sources des scores : llm-stats.

LiveBench

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++