MATH-500

MATH-500 est un benchmark de mathématiques conçu pour évaluer la capacité des modèles d’IA à résoudre des problèmes de compétition exigeants. Créé par OpenAI, avec H. Lightman et al., à partir du jeu MATH de D. Hendrycks et al., il rassemble des questions ouvertes à réponse courte…

MATH-500 est un benchmark de mathématiques conçu pour évaluer la capacité des modèles d’IA à résoudre des problèmes de compétition exigeants. Créé par OpenAI, avec H. Lightman et al., à partir du jeu MATH de D. Hendrycks et al., il rassemble des questions ouvertes à réponse courte accompagnées de solutions détaillées.

Le benchmark mesure surtout le raisonnement multi-étapes, le calcul symbolique et l’identification de la réponse finale correcte. Il sert de repère pour comparer les modèles sur des tâches mathématiques structurées, où la justesse du résultat compte autant que la capacité à suivre une chaîne de raisonnement fiable.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI (H. Lightman et al.), à partir du jeu MATH de D. Hendrycks et al.
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes de mathématiques à réponse courte, avec solutions détaillées
Métrique d'évaluationexact match / accuracy
AccèsPublic
Languesanglais
Taille du jeu500 problèmes
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1LongCat-Flash-ThinkingMeituan99,2 %22 septembre 2025Auto-déclaré
2Sarvam-105Bsarvamai98,6 %6 mars 2026Auto-déclaré
3GLM-4.5Zhipu AI98,2 %28 juillet 2025Auto-déclaré
4GLM-4.5-AirZhipu AI98,1 %28 juillet 2025Auto-déclaré
5Nemotron Nano 9B v2NVIDIA97,8 %18 août 2025Auto-déclaré
6Kimi K2 InstructMoonshot AI97,4 %11 juillet 2025Auto-déclaré
7Kimi K2-Instruct-0905Moonshot AI97,4 %5 septembre 2025Auto-déclaré
8Llama 3.1 Nemotron Ultra 253B v1NVIDIA97,0 %7 avril 2025Auto-déclaré
9Sarvam-30Bsarvamai97,0 %6 mars 2026Auto-déclaré
10LongCat-Flash-LiteMeituan96,8 %5 février 2026Auto-déclaré
11Llama-3.3 Nemotron Super 49B v1NVIDIA96,6 %18 mars 2025Auto-déclaré
12LongCat-Flash-ChatMeituan96,4 %29 août 2025Auto-déclaré
13Claude 3.7 SonnetAnthropic96,2 %24 février 2025Auto-déclaré
14Kimi-k1.5Moonshot AI96,2 %20 janvier 2025Auto-déclaré
15MiniMax M1MiniMax96,0 %17 juin 2025Auto-déclaré
16DeepSeek R1 ZeroDeepSeek95,9 %20 janvier 2025Auto-déclaré
17Llama 3.1 Nemotron Nano 8B V1NVIDIA95,4 %18 mars 2025Auto-déclaré
18Phi 4 MiniMicrosoft94,6 %30 avril 2025Auto-déclaré
19DeepSeek R1 Distill Llama 70BDeepSeek94,5 %20 janvier 2025Auto-déclaré
20DeepSeek R1 Distill Qwen 32BDeepSeek94,3 %20 janvier 2025Auto-déclaré

Classement établi sur 31 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 95,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MATH-500 indique qu’un modèle sait traiter des problèmes mathématiques de compétition en anglais, souvent complexes, avec une bonne maîtrise du raisonnement séquentiel et des transformations symboliques. La métrique repose sur l’exact match, ce qui rend l’évaluation stricte sur la réponse finale, mais ne garantit pas à elle seule la qualité du raisonnement intermédiaire. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe avec des mesures entièrement reproduites dans un cadre indépendant. Le niveau médian très élevé et le meilleur score proche du plafond suggèrent une saturation partielle du benchmark parmi les modèles récents évalués. Cette situation réduit sa capacité à départager finement les meilleurs systèmes. Les limites portent aussi sur la portée du test, centré sur des problèmes de compétition, et sur le risque de contamination lié à un jeu public. Le classement révèle surtout l’efficacité des modèles de pointe sur des mathématiques formalisées, plus qu’une compétence mathématique générale.


Sources des scores : llm-stats.