Mathematics

LiveBench: Mathematics est la catégorie mathématique de LiveBench, un benchmark publié en 2024 par l’équipe LiveBench, réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California. Il évalue la capacité des modèles d’IA à résoudre des…

LiveBench: Mathematics est la catégorie mathématique de LiveBench, un benchmark publié en 2024 par l’équipe LiveBench, réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California. Il évalue la capacité des modèles d’IA à résoudre des problèmes mathématiques récents, notamment issus de compétitions comme AMC ou AIME, ainsi que des versions durcies de benchmarks existants.

Son rôle est de fournir une mesure plus résistante à la contamination des données d’entraînement, grâce à des énoncés récents et à une notation automatique fondée sur une vérité-terrain objective, sans recours à un juge LLM.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAbacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesuréesResolution de problemes mathematiques issus de competitions recentes et versions durcies de benchmarks existants
ModalitéTexte
Type de questionsProblemes mathematiques (competitions recentes type AMC/AIME, demonstrations, etc.)
Métrique d'évaluationScoring automatique sur verite-terrain objective et verifiable, sans juge LLM
AccèsPublic
LicenceApache-2.0 (depot avec composants sous MIT)
Languesanglais
Taille du jeu40-100 questions par tache (plusieurs taches par categorie)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5OpenAI96,3 %23 avril 2026✅ Mesuré
2Claude Opus 4.8Anthropic95,3 %28 mai 2026✅ Mesuré
3GPT-5.4OpenAI94,1 %5 mars 2026✅ Mesuré
4Claude Fable 5Anthropic93,9 %9 juin 2026✅ Mesuré
5GPT-5.2OpenAI93,2 %11 décembre 2025✅ Mesuré
6Claude Opus 4.7Anthropic93,1 %12 mai 2026✅ Mesuré
7GPT-5.4 nanoOpenAI91,3 %17 mars 2026✅ Mesuré
8Gemini 3.1 Pro PreviewGoogle91,0 %19 février 2026✅ Mesuré
9DeepSeek V4 ProDeepSeek90,7 %24 avril 2026✅ Mesuré
10GLM-5.2Zhipu AI89,8 %16 juin 2026✅ Mesuré
11Claude Opus 4.6Anthropic89,3 %7 avril 2026✅ Mesuré
12GPT-5.2 CodexOpenAI88,8 %14 janvier 2026✅ Mesuré
13Gemini 3.5 FlashGoogle88,2 %19 mai 2026✅ Mesuré
14GPT-5.3 CodexOpenAI87,8 %5 février 2026✅ Mesuré
15xAI: Grok 4.20 BetaxAI87,1 %12 mars 2026✅ Mesuré
16Claude Sonnet 4.6Anthropic87,0 %17 février 2026✅ Mesuré
17GPT-5.1OpenAI86,9 %13 novembre 2025✅ Mesuré
18OpenAI: GPT-5 ProOpenAI86,2 %6 octobre 2025✅ Mesuré
19Qwen3.7 MaxQwen85,2 %19 mai 2026✅ Mesuré
20DeepSeek-V3.2DeepSeek85,0 %1 décembre 2025✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 79,6 %.

Notre analyse

Un score élevé sur LiveBench: Mathematics indique une forte aptitude à traiter des problèmes mathématiques structurés, souvent proches de formats de compétition, avec des réponses vérifiables automatiquement. La présence d’un meilleur score à 96% pour GPT-5.5 et d’un score médian de 80% parmi les 76 modèles suivis suggère que les meilleurs systèmes atteignent déjà un niveau très élevé sur cette catégorie. Cela peut aussi signaler un risque de saturation partielle, surtout si les écarts en tête deviennent faibles.

La rigueur du benchmark repose sur une correction automatique à partir d’une vérité-terrain objective, ce qui limite la subjectivité et évite les biais possibles d’un juge LLM. En revanche, la fiabilité pratique du classement dépend aussi de la provenance des résultats, majoritairement auto-déclarés par les éditeurs. Les limites portent sur la portée linguistique, limitée à l’anglais, sur le périmètre centré sur les mathématiques de compétition et les démonstrations, ainsi que sur le risque de contamination que l’usage de compétitions récentes cherche à réduire sans pouvoir l’exclure totalement.


Sources des scores : livebench.