MATH-500
MATH-500 est un benchmark de mathématiques conçu pour évaluer la capacité des modèles d’IA à résoudre des problèmes de compétition exigeants. Créé par OpenAI, avec H. Lightman et al., à partir du jeu MATH de D. Hendrycks et al., il rassemble des questions ouvertes à réponse courte…
MATH-500 est un benchmark de mathématiques conçu pour évaluer la capacité des modèles d’IA à résoudre des problèmes de compétition exigeants. Créé par OpenAI, avec H. Lightman et al., à partir du jeu MATH de D. Hendrycks et al., il rassemble des questions ouvertes à réponse courte accompagnées de solutions détaillées.
Le benchmark mesure surtout le raisonnement multi-étapes, le calcul symbolique et l’identification de la réponse finale correcte. Il sert de repère pour comparer les modèles sur des tâches mathématiques structurées, où la justesse du résultat compte autant que la capacité à suivre une chaîne de raisonnement fiable.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI (H. Lightman et al.), à partir du jeu MATH de D. Hendrycks et al. |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes de mathématiques à réponse courte, avec solutions détaillées |
| Métrique d'évaluation | exact match / accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 500 problèmes |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | LongCat-Flash-Thinking | Meituan | 99,2 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Sarvam-105B | sarvamai | 98,6 % | 6 mars 2026 | Auto-déclaré |
| 3 | GLM-4.5 | Zhipu AI | 98,2 % | 28 juillet 2025 | Auto-déclaré |
| 4 | GLM-4.5-Air | Zhipu AI | 98,1 % | 28 juillet 2025 | Auto-déclaré |
| 5 | Nemotron Nano 9B v2 | NVIDIA | 97,8 % | 18 août 2025 | Auto-déclaré |
| 6 | Kimi K2 Instruct | Moonshot AI | 97,4 % | 11 juillet 2025 | Auto-déclaré |
| 7 | Kimi K2-Instruct-0905 | Moonshot AI | 97,4 % | 5 septembre 2025 | Auto-déclaré |
| 8 | Llama 3.1 Nemotron Ultra 253B v1 | NVIDIA | 97,0 % | 7 avril 2025 | Auto-déclaré |
| 9 | Sarvam-30B | sarvamai | 97,0 % | 6 mars 2026 | Auto-déclaré |
| 10 | LongCat-Flash-Lite | Meituan | 96,8 % | 5 février 2026 | Auto-déclaré |
| 11 | Llama-3.3 Nemotron Super 49B v1 | NVIDIA | 96,6 % | 18 mars 2025 | Auto-déclaré |
| 12 | LongCat-Flash-Chat | Meituan | 96,4 % | 29 août 2025 | Auto-déclaré |
| 13 | Claude 3.7 Sonnet | Anthropic | 96,2 % | 24 février 2025 | Auto-déclaré |
| 14 | Kimi-k1.5 | Moonshot AI | 96,2 % | 20 janvier 2025 | Auto-déclaré |
| 15 | MiniMax M1 | MiniMax | 96,0 % | 17 juin 2025 | Auto-déclaré |
| 16 | DeepSeek R1 Zero | DeepSeek | 95,9 % | 20 janvier 2025 | Auto-déclaré |
| 17 | Llama 3.1 Nemotron Nano 8B V1 | NVIDIA | 95,4 % | 18 mars 2025 | Auto-déclaré |
| 18 | Phi 4 Mini | Microsoft | 94,6 % | 30 avril 2025 | Auto-déclaré |
| 19 | DeepSeek R1 Distill Llama 70B | DeepSeek | 94,5 % | 20 janvier 2025 | Auto-déclaré |
| 20 | DeepSeek R1 Distill Qwen 32B | DeepSeek | 94,3 % | 20 janvier 2025 | Auto-déclaré |
Classement établi sur 31 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 95,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MATH-500 indique qu’un modèle sait traiter des problèmes mathématiques de compétition en anglais, souvent complexes, avec une bonne maîtrise du raisonnement séquentiel et des transformations symboliques. La métrique repose sur l’exact match, ce qui rend l’évaluation stricte sur la réponse finale, mais ne garantit pas à elle seule la qualité du raisonnement intermédiaire. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe avec des mesures entièrement reproduites dans un cadre indépendant. Le niveau médian très élevé et le meilleur score proche du plafond suggèrent une saturation partielle du benchmark parmi les modèles récents évalués. Cette situation réduit sa capacité à départager finement les meilleurs systèmes. Les limites portent aussi sur la portée du test, centré sur des problèmes de compétition, et sur le risque de contamination lié à un jeu public. Le classement révèle surtout l’efficacité des modèles de pointe sur des mathématiques formalisées, plus qu’une compétence mathématique générale.
Sources des scores : llm-stats.