Autres benchmarks

Mathematics

LiveBench: Mathematics est la catégorie mathématique de LiveBench, un benchmark publié en 2024 par l’équipe LiveBench, réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California. Il évalue la capacité des modèles d’IA à résoudre des problèmes mathématiques récents, notamment issus de compétitions comme AMC ou AIME, ainsi que des versions durcies de benchmarks existants.

Son rôle est de fournir une mesure plus résistante à la contamination des données d’entraînement, grâce à des énoncés récents et à une notation automatique fondée sur une vérité-terrain objective, sans recours à un juge LLM.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesurées	Resolution de problemes mathematiques issus de competitions recentes et versions durcies de benchmarks existants
Modalité	Texte
Type de questions	Problemes mathematiques (competitions recentes type AMC/AIME, demonstrations, etc.)
Métrique d'évaluation	Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM
Accès	Public
Licence	Apache-2.0 (depot avec composants sous MIT)
Langues	anglais
Taille du jeu	40-100 questions par tache (plusieurs taches par categorie)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5	OpenAI	96,3 %	23 avril 2026	✅ Mesuré
2	Claude Opus 4.8	Anthropic	95,3 %	28 mai 2026	✅ Mesuré
3	GPT-5.4	OpenAI	94,1 %	5 mars 2026	✅ Mesuré
4	Claude Fable 5	Anthropic	93,9 %	9 juin 2026	✅ Mesuré
5	GPT-5.2	OpenAI	93,2 %	11 décembre 2025	✅ Mesuré
6	Claude Opus 4.7	Anthropic	93,1 %	12 mai 2026	✅ Mesuré
7	GPT-5.4 nano	OpenAI	91,3 %	17 mars 2026	✅ Mesuré
8	Gemini 3.1 Pro Preview	Google	91,0 %	19 février 2026	✅ Mesuré
9	DeepSeek V4 Pro	DeepSeek	90,7 %	24 avril 2026	✅ Mesuré
10	GLM-5.2	Zhipu AI	89,8 %	16 juin 2026	✅ Mesuré
11	Claude Opus 4.6	Anthropic	89,3 %	7 avril 2026	✅ Mesuré
12	GPT-5.2 Codex	OpenAI	88,8 %	14 janvier 2026	✅ Mesuré
13	Gemini 3.5 Flash	Google	88,2 %	19 mai 2026	✅ Mesuré
14	GPT-5.3 Codex	OpenAI	87,8 %	5 février 2026	✅ Mesuré
15	xAI: Grok 4.20 Beta	xAI	87,1 %	12 mars 2026	✅ Mesuré
16	Claude Sonnet 4.6	Anthropic	87,0 %	17 février 2026	✅ Mesuré
17	GPT-5.1	OpenAI	86,9 %	13 novembre 2025	✅ Mesuré
18	OpenAI: GPT-5 Pro	OpenAI	86,2 %	6 octobre 2025	✅ Mesuré
19	Qwen3.7 Max	Qwen	85,2 %	19 mai 2026	✅ Mesuré
20	DeepSeek-V3.2	DeepSeek	85,0 %	1 décembre 2025	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 79,6 %.

Notre analyse

Un score élevé sur LiveBench: Mathematics indique une forte aptitude à traiter des problèmes mathématiques structurés, souvent proches de formats de compétition, avec des réponses vérifiables automatiquement. La présence d’un meilleur score à 96% pour GPT-5.5 et d’un score médian de 80% parmi les 76 modèles suivis suggère que les meilleurs systèmes atteignent déjà un niveau très élevé sur cette catégorie. Cela peut aussi signaler un risque de saturation partielle, surtout si les écarts en tête deviennent faibles.

La rigueur du benchmark repose sur une correction automatique à partir d’une vérité-terrain objective, ce qui limite la subjectivité et évite les biais possibles d’un juge LLM. En revanche, la fiabilité pratique du classement dépend aussi de la provenance des résultats, majoritairement auto-déclarés par les éditeurs. Les limites portent sur la portée linguistique, limitée à l’anglais, sur le périmètre centré sur les mathématiques de compétition et les démonstrations, ainsi que sur le risque de contamination que l’usage de compétitions récentes cherche à réduire sans pouvoir l’exclure totalement.

Sources des scores : livebench.

Mathematics

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench