Mathématiques

MATH-500

MATH-500 est un benchmark de mathématiques conçu pour évaluer la capacité des modèles d’IA à résoudre des problèmes de compétition exigeants. Créé par OpenAI, avec H. Lightman et al., à partir du jeu MATH de D. Hendrycks et al., il rassemble des questions ouvertes à réponse courte…

Le benchmark mesure surtout le raisonnement multi-étapes, le calcul symbolique et l’identification de la réponse finale correcte. Il sert de repère pour comparer les modèles sur des tâches mathématiques structurées, où la justesse du résultat compte autant que la capacité à suivre une chaîne de raisonnement fiable.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI (H. Lightman et al.), à partir du jeu MATH de D. Hendrycks et al.
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes de mathématiques à réponse courte, avec solutions détaillées
Métrique d'évaluation	exact match / accuracy
Accès	Public
Langues	anglais
Taille du jeu	500 problèmes
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	LongCat-Flash-Thinking	Meituan	99,2 %	22 septembre 2025	Auto-déclaré
2	Sarvam-105B	sarvamai	98,6 %	6 mars 2026	Auto-déclaré
3	GLM-4.5	Zhipu AI	98,2 %	28 juillet 2025	Auto-déclaré
4	GLM-4.5-Air	Zhipu AI	98,1 %	28 juillet 2025	Auto-déclaré
5	Nemotron Nano 9B v2	NVIDIA	97,8 %	18 août 2025	Auto-déclaré
6	Kimi K2 Instruct	Moonshot AI	97,4 %	11 juillet 2025	Auto-déclaré
7	Kimi K2-Instruct-0905	Moonshot AI	97,4 %	5 septembre 2025	Auto-déclaré
8	Llama 3.1 Nemotron Ultra 253B v1	NVIDIA	97,0 %	7 avril 2025	Auto-déclaré
9	Sarvam-30B	sarvamai	97,0 %	6 mars 2026	Auto-déclaré
10	LongCat-Flash-Lite	Meituan	96,8 %	5 février 2026	Auto-déclaré
11	Llama-3.3 Nemotron Super 49B v1	NVIDIA	96,6 %	18 mars 2025	Auto-déclaré
12	LongCat-Flash-Chat	Meituan	96,4 %	29 août 2025	Auto-déclaré
13	Claude 3.7 Sonnet	Anthropic	96,2 %	24 février 2025	Auto-déclaré
14	Kimi-k1.5	Moonshot AI	96,2 %	20 janvier 2025	Auto-déclaré
15	MiniMax M1	MiniMax	96,0 %	17 juin 2025	Auto-déclaré
16	DeepSeek R1 Zero	DeepSeek	95,9 %	20 janvier 2025	Auto-déclaré
17	Llama 3.1 Nemotron Nano 8B V1	NVIDIA	95,4 %	18 mars 2025	Auto-déclaré
18	Phi 4 Mini	Microsoft	94,6 %	30 avril 2025	Auto-déclaré
19	DeepSeek R1 Distill Llama 70B	DeepSeek	94,5 %	20 janvier 2025	Auto-déclaré
20	DeepSeek R1 Distill Qwen 32B	DeepSeek	94,3 %	20 janvier 2025	Auto-déclaré

Classement établi sur 31 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 95,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MATH-500 indique qu’un modèle sait traiter des problèmes mathématiques de compétition en anglais, souvent complexes, avec une bonne maîtrise du raisonnement séquentiel et des transformations symboliques. La métrique repose sur l’exact match, ce qui rend l’évaluation stricte sur la réponse finale, mais ne garantit pas à elle seule la qualité du raisonnement intermédiaire. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe avec des mesures entièrement reproduites dans un cadre indépendant. Le niveau médian très élevé et le meilleur score proche du plafond suggèrent une saturation partielle du benchmark parmi les modèles récents évalués. Cette situation réduit sa capacité à départager finement les meilleurs systèmes. Les limites portent aussi sur la portée du test, centré sur des problèmes de compétition, et sur le risque de contamination lié à un jeu public. Le classement révèle surtout l’efficacité des modèles de pointe sur des mathématiques formalisées, plus qu’une compétence mathématique générale.

Sources des scores : llm-stats.

MATH-500

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++