Mathématiques

MATH

MATH est un benchmark conçu par D. Hendrycks et al. pour évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques exigeants, issus de compétitions et formulés en questions ouvertes à réponse courte. Chaque exercice s’accompagne d’une solution détaillée, ce qui en fait…

Le benchmark couvre des domaines comme l’algèbre, la géométrie, la théorie des nombres, les probabilités et le pré-calcul. Il sert à mesurer la robustesse des modèles face à des tâches nécessitant plusieurs étapes de raisonnement, de la manipulation symbolique et des connaissances mathématiques structurées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	D. Hendrycks et al.
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte avec solution détaillée
Métrique d'évaluation	accuracy / exact match sur la réponse finale
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	12 500 problèmes
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	o3-mini	OpenAI	97,9 %	30 janvier 2025	Auto-déclaré
2	o1	OpenAI	96,4 %	17 décembre 2024	Auto-déclaré
3	MiniStral 3 (14B Instruct 2512)	Mistral AI	90,4 %	4 décembre 2025	Auto-déclaré
4	Mistral Large 3	Mistral AI	90,4 %	1 septembre 2025	Auto-déclaré
5	Gemini 2.0 Flash	Google	89,7 %	21 janvier 2025	Auto-déclaré
6	Kimi K2 0905	Moonshot AI	89,1 %	5 septembre 2025	Auto-déclaré
7	Gemma 3 27B	Google	89,0 %	12 mars 2025	Auto-déclaré
8	Ministral 3 (8B Instruct 2512)	Mistral AI	87,6 %	4 décembre 2025	Auto-déclaré
9	Gemini 2.0 Flash-Lite	Google	86,8 %	5 février 2025	Auto-déclaré
10	Gemini 1.5 Pro	Google	86,5 %	1 mai 2024	Auto-déclaré
11	MiMo-V2.5-Pro	Xiaomi	86,2 %	27 avril 2026	Auto-déclaré
12	o1-preview	OpenAI	85,5 %	12 septembre 2024	Auto-déclaré
13	GPT-5	OpenAI	84,7 %	7 août 2025	Auto-déclaré
14	Gemma 3 12B	Google	83,8 %	12 mars 2025	Auto-déclaré
15	Qwen2.5 32B Instruct	Qwen	83,1 %	19 septembre 2024	Auto-déclaré
16	Qwen2.5 72B Instruct	Qwen	83,1 %	19 septembre 2024	Auto-déclaré
17	Ministral 3 (3B Instruct 2512)	Mistral AI	83,0 %	4 décembre 2025	Auto-déclaré
18	Qwen2.5 VL 32B Instruct	Qwen	82,2 %	28 février 2025	Auto-déclaré
19	Phi 4	Microsoft	80,4 %	12 décembre 2024	Auto-déclaré
20	Qwen2.5 14B Instruct	Qwen	80,0 %	19 septembre 2024	Auto-déclaré

Classement établi sur 70 modèles évalués, dont 65 de grands éditeurs. Score médian de l'ensemble : 71,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MATH indique une forte aptitude à produire une réponse finale exacte sur des problèmes mathématiques de niveau concours, avec des raisonnements souvent multi-étapes. La métrique d’exact match rend l’évaluation stricte, car seule la réponse finale compte, même si les problèmes disposent de solutions détaillées. Dans la base considérée, le classement montre un niveau déjà élevé, avec une médiane à 71 % sur 71 modèles évalués et un meilleur score de 98 % pour o3-mini (OpenAI). Cette proximité avec le plafond suggère un risque de saturation pour les modèles les plus performants. La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement reproduites de manière indépendante. Le caractère public du jeu peut aussi accroître les risques de contamination des données d’entraînement. Enfin, MATH mesure surtout la résolution de problèmes mathématiques en anglais, et ne résume pas à lui seul les capacités générales d’un modèle.

Sources des scores : llm-stats.

MATH

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench