MATH
MATH est un benchmark conçu par D. Hendrycks et al. pour évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques exigeants, issus de compétitions et formulés en questions ouvertes à réponse courte. Chaque exercice s’accompagne d’une solution détaillée, ce qui en fait…
MATH est un benchmark conçu par D. Hendrycks et al. pour évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques exigeants, issus de compétitions et formulés en questions ouvertes à réponse courte. Chaque exercice s’accompagne d’une solution détaillée, ce qui en fait un jeu centré sur le raisonnement mathématique plutôt que sur la simple reconnaissance de motifs.
Le benchmark couvre des domaines comme l’algèbre, la géométrie, la théorie des nombres, les probabilités et le pré-calcul. Il sert à mesurer la robustesse des modèles face à des tâches nécessitant plusieurs étapes de raisonnement, de la manipulation symbolique et des connaissances mathématiques structurées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | D. Hendrycks et al. |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte avec solution détaillée |
| Métrique d'évaluation | accuracy / exact match sur la réponse finale |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | 12 500 problèmes |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | o3-mini | OpenAI | 97,9 % | 30 janvier 2025 | Auto-déclaré |
| 2 | o1 | OpenAI | 96,4 % | 17 décembre 2024 | Auto-déclaré |
| 3 | MiniStral 3 (14B Instruct 2512) | Mistral AI | 90,4 % | 4 décembre 2025 | Auto-déclaré |
| 4 | Mistral Large 3 | Mistral AI | 90,4 % | 1 septembre 2025 | Auto-déclaré |
| 5 | Gemini 2.0 Flash | 89,7 % | 21 janvier 2025 | Auto-déclaré | |
| 6 | Kimi K2 0905 | Moonshot AI | 89,1 % | 5 septembre 2025 | Auto-déclaré |
| 7 | Gemma 3 27B | 89,0 % | 12 mars 2025 | Auto-déclaré | |
| 8 | Ministral 3 (8B Instruct 2512) | Mistral AI | 87,6 % | 4 décembre 2025 | Auto-déclaré |
| 9 | Gemini 2.0 Flash-Lite | 86,8 % | 5 février 2025 | Auto-déclaré | |
| 10 | Gemini 1.5 Pro | 86,5 % | 1 mai 2024 | Auto-déclaré | |
| 11 | MiMo-V2.5-Pro | Xiaomi | 86,2 % | 27 avril 2026 | Auto-déclaré |
| 12 | o1-preview | OpenAI | 85,5 % | 12 septembre 2024 | Auto-déclaré |
| 13 | GPT-5 | OpenAI | 84,7 % | 7 août 2025 | Auto-déclaré |
| 14 | Gemma 3 12B | 83,8 % | 12 mars 2025 | Auto-déclaré | |
| 15 | Qwen2.5 32B Instruct | Qwen | 83,1 % | 19 septembre 2024 | Auto-déclaré |
| 16 | Qwen2.5 72B Instruct | Qwen | 83,1 % | 19 septembre 2024 | Auto-déclaré |
| 17 | Ministral 3 (3B Instruct 2512) | Mistral AI | 83,0 % | 4 décembre 2025 | Auto-déclaré |
| 18 | Qwen2.5 VL 32B Instruct | Qwen | 82,2 % | 28 février 2025 | Auto-déclaré |
| 19 | Phi 4 | Microsoft | 80,4 % | 12 décembre 2024 | Auto-déclaré |
| 20 | Qwen2.5 14B Instruct | Qwen | 80,0 % | 19 septembre 2024 | Auto-déclaré |
Classement établi sur 70 modèles évalués, dont 65 de grands éditeurs. Score médian de l'ensemble : 71,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MATH indique une forte aptitude à produire une réponse finale exacte sur des problèmes mathématiques de niveau concours, avec des raisonnements souvent multi-étapes. La métrique d’exact match rend l’évaluation stricte, car seule la réponse finale compte, même si les problèmes disposent de solutions détaillées. Dans la base considérée, le classement montre un niveau déjà élevé, avec une médiane à 71 % sur 71 modèles évalués et un meilleur score de 98 % pour o3-mini (OpenAI). Cette proximité avec le plafond suggère un risque de saturation pour les modèles les plus performants. La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement reproduites de manière indépendante. Le caractère public du jeu peut aussi accroître les risques de contamination des données d’entraînement. Enfin, MATH mesure surtout la résolution de problèmes mathématiques en anglais, et ne résume pas à lui seul les capacités générales d’un modèle.
Sources des scores : llm-stats.