Mathematics
LiveBench: Mathematics est la catégorie mathématique de LiveBench, un benchmark publié en 2024 par l’équipe LiveBench, réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California. Il évalue la capacité des modèles d’IA à résoudre des…
LiveBench: Mathematics est la catégorie mathématique de LiveBench, un benchmark publié en 2024 par l’équipe LiveBench, réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California. Il évalue la capacité des modèles d’IA à résoudre des problèmes mathématiques récents, notamment issus de compétitions comme AMC ou AIME, ainsi que des versions durcies de benchmarks existants.
Son rôle est de fournir une mesure plus résistante à la contamination des données d’entraînement, grâce à des énoncés récents et à une notation automatique fondée sur une vérité-terrain objective, sans recours à un juge LLM.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench) |
| Capacités mesurées | Resolution de problemes mathematiques issus de competitions recentes et versions durcies de benchmarks existants |
| Modalité | Texte |
| Type de questions | Problemes mathematiques (competitions recentes type AMC/AIME, demonstrations, etc.) |
| Métrique d'évaluation | Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM |
| Accès | Public |
| Licence | Apache-2.0 (depot avec composants sous MIT) |
| Langues | anglais |
| Taille du jeu | 40-100 questions par tache (plusieurs taches par categorie) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | 96,3 % | 23 avril 2026 | ✅ Mesuré |
| 2 | Claude Opus 4.8 | Anthropic | 95,3 % | 28 mai 2026 | ✅ Mesuré |
| 3 | GPT-5.4 | OpenAI | 94,1 % | 5 mars 2026 | ✅ Mesuré |
| 4 | Claude Fable 5 | Anthropic | 93,9 % | 9 juin 2026 | ✅ Mesuré |
| 5 | GPT-5.2 | OpenAI | 93,2 % | 11 décembre 2025 | ✅ Mesuré |
| 6 | Claude Opus 4.7 | Anthropic | 93,1 % | 12 mai 2026 | ✅ Mesuré |
| 7 | GPT-5.4 nano | OpenAI | 91,3 % | 17 mars 2026 | ✅ Mesuré |
| 8 | Gemini 3.1 Pro Preview | 91,0 % | 19 février 2026 | ✅ Mesuré | |
| 9 | DeepSeek V4 Pro | DeepSeek | 90,7 % | 24 avril 2026 | ✅ Mesuré |
| 10 | GLM-5.2 | Zhipu AI | 89,8 % | 16 juin 2026 | ✅ Mesuré |
| 11 | Claude Opus 4.6 | Anthropic | 89,3 % | 7 avril 2026 | ✅ Mesuré |
| 12 | GPT-5.2 Codex | OpenAI | 88,8 % | 14 janvier 2026 | ✅ Mesuré |
| 13 | Gemini 3.5 Flash | 88,2 % | 19 mai 2026 | ✅ Mesuré | |
| 14 | GPT-5.3 Codex | OpenAI | 87,8 % | 5 février 2026 | ✅ Mesuré |
| 15 | xAI: Grok 4.20 Beta | xAI | 87,1 % | 12 mars 2026 | ✅ Mesuré |
| 16 | Claude Sonnet 4.6 | Anthropic | 87,0 % | 17 février 2026 | ✅ Mesuré |
| 17 | GPT-5.1 | OpenAI | 86,9 % | 13 novembre 2025 | ✅ Mesuré |
| 18 | OpenAI: GPT-5 Pro | OpenAI | 86,2 % | 6 octobre 2025 | ✅ Mesuré |
| 19 | Qwen3.7 Max | Qwen | 85,2 % | 19 mai 2026 | ✅ Mesuré |
| 20 | DeepSeek-V3.2 | DeepSeek | 85,0 % | 1 décembre 2025 | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 79,6 %.
Notre analyse
Un score élevé sur LiveBench: Mathematics indique une forte aptitude à traiter des problèmes mathématiques structurés, souvent proches de formats de compétition, avec des réponses vérifiables automatiquement. La présence d’un meilleur score à 96% pour GPT-5.5 et d’un score médian de 80% parmi les 76 modèles suivis suggère que les meilleurs systèmes atteignent déjà un niveau très élevé sur cette catégorie. Cela peut aussi signaler un risque de saturation partielle, surtout si les écarts en tête deviennent faibles.
La rigueur du benchmark repose sur une correction automatique à partir d’une vérité-terrain objective, ce qui limite la subjectivité et évite les biais possibles d’un juge LLM. En revanche, la fiabilité pratique du classement dépend aussi de la provenance des résultats, majoritairement auto-déclarés par les éditeurs. Les limites portent sur la portée linguistique, limitée à l’anglais, sur le périmètre centré sur les mathématiques de compétition et les démonstrations, ainsi que sur le risque de contamination que l’usage de compétitions récentes cherche à réduire sans pouvoir l’exclure totalement.
Sources des scores : livebench.