MATH

MATH est un benchmark conçu par D. Hendrycks et al. pour évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques exigeants, issus de compétitions et formulés en questions ouvertes à réponse courte. Chaque exercice s’accompagne d’une solution détaillée, ce qui en fait…

MATH est un benchmark conçu par D. Hendrycks et al. pour évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques exigeants, issus de compétitions et formulés en questions ouvertes à réponse courte. Chaque exercice s’accompagne d’une solution détaillée, ce qui en fait un jeu centré sur le raisonnement mathématique plutôt que sur la simple reconnaissance de motifs.

Le benchmark couvre des domaines comme l’algèbre, la géométrie, la théorie des nombres, les probabilités et le pré-calcul. Il sert à mesurer la robustesse des modèles face à des tâches nécessitant plusieurs étapes de raisonnement, de la manipulation symbolique et des connaissances mathématiques structurées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkD. Hendrycks et al.
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte avec solution détaillée
Métrique d'évaluationaccuracy / exact match sur la réponse finale
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeu12 500 problèmes
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1o3-miniOpenAI97,9 %30 janvier 2025Auto-déclaré
2o1OpenAI96,4 %17 décembre 2024Auto-déclaré
3MiniStral 3 (14B Instruct 2512)Mistral AI90,4 %4 décembre 2025Auto-déclaré
4Mistral Large 3Mistral AI90,4 %1 septembre 2025Auto-déclaré
5Gemini 2.0 FlashGoogle89,7 %21 janvier 2025Auto-déclaré
6Kimi K2 0905Moonshot AI89,1 %5 septembre 2025Auto-déclaré
7Gemma 3 27BGoogle89,0 %12 mars 2025Auto-déclaré
8Ministral 3 (8B Instruct 2512)Mistral AI87,6 %4 décembre 2025Auto-déclaré
9Gemini 2.0 Flash-LiteGoogle86,8 %5 février 2025Auto-déclaré
10Gemini 1.5 ProGoogle86,5 %1 mai 2024Auto-déclaré
11MiMo-V2.5-ProXiaomi86,2 %27 avril 2026Auto-déclaré
12o1-previewOpenAI85,5 %12 septembre 2024Auto-déclaré
13GPT-5OpenAI84,7 %7 août 2025Auto-déclaré
14Gemma 3 12BGoogle83,8 %12 mars 2025Auto-déclaré
15Qwen2.5 32B InstructQwen83,1 %19 septembre 2024Auto-déclaré
16Qwen2.5 72B InstructQwen83,1 %19 septembre 2024Auto-déclaré
17Ministral 3 (3B Instruct 2512)Mistral AI83,0 %4 décembre 2025Auto-déclaré
18Qwen2.5 VL 32B InstructQwen82,2 %28 février 2025Auto-déclaré
19Phi 4Microsoft80,4 %12 décembre 2024Auto-déclaré
20Qwen2.5 14B InstructQwen80,0 %19 septembre 2024Auto-déclaré

Classement établi sur 70 modèles évalués, dont 65 de grands éditeurs. Score médian de l'ensemble : 71,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MATH indique une forte aptitude à produire une réponse finale exacte sur des problèmes mathématiques de niveau concours, avec des raisonnements souvent multi-étapes. La métrique d’exact match rend l’évaluation stricte, car seule la réponse finale compte, même si les problèmes disposent de solutions détaillées. Dans la base considérée, le classement montre un niveau déjà élevé, avec une médiane à 71 % sur 71 modèles évalués et un meilleur score de 98 % pour o3-mini (OpenAI). Cette proximité avec le plafond suggère un risque de saturation pour les modèles les plus performants. La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des évaluations entièrement reproduites de manière indépendante. Le caractère public du jeu peut aussi accroître les risques de contamination des données d’entraînement. Enfin, MATH mesure surtout la résolution de problèmes mathématiques en anglais, et ne résume pas à lui seul les capacités générales d’un modèle.


Sources des scores : llm-stats.