MATH level 5
Epoch: MATH level 5 est une évaluation issue du benchmark MATH, créé par D. Hendrycks et al. Elle se concentre sur les problèmes de niveau 5, les plus difficiles de ce jeu de mathématiques de compétition, et mesure la capacité des modèles à produire des réponses courtes à des questions…
Epoch: MATH level 5 est une évaluation issue du benchmark MATH, créé par D. Hendrycks et al. Elle se concentre sur les problèmes de niveau 5, les plus difficiles de ce jeu de mathématiques de compétition, et mesure la capacité des modèles à produire des réponses courtes à des questions ouvertes.
Ce benchmark sert à tester le raisonnement mathématique avancé plutôt que la simple reconnaissance de motifs. Il occupe une place utile dans l’évaluation des modèles généralistes, car il met en jeu des démonstrations implicites, des calculs et une compréhension fine d’énoncés formulés en anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | D. Hendrycks et al. |
| Capacités mesurées | Mesure la capacité à résoudre des problèmes de mathématiques de compétition, en particulier les problèmes les plus difficiles du jeu MATH. |
| Modalité | Texte |
| Type de questions | questions ouvertes de mathématiques à réponse courte |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | sous-ensemble des problèmes de niveau 5 du jeu MATH ; MATH complet contient 12 500 problèmes |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5 | OpenAI | 98,1 % | 7 août 2025 | ✅ Mesuré |
| 2 | GPT-5 mini | OpenAI | 97,8 % | 7 août 2025 | ✅ Mesuré |
| 3 | o4-mini | OpenAI | 97,8 % | 16 avril 2025 | ✅ Mesuré |
| 4 | o3 | OpenAI | 97,8 % | 16 avril 2025 | ✅ Mesuré |
| 5 | Claude Sonnet 4.5 | Anthropic | 97,7 % | 29 septembre 2025 | ✅ Mesuré |
| 6 | Qwen3-Max-Instruct | Qwen | 97,1 % | 24 septembre 2025 | ✅ Mesuré |
| 7 | DeepSeek-R1 | DeepSeek | 96,6 % | 28 mai 2025 | ✅ Mesuré |
| 8 | o3-mini | OpenAI | 96,5 % | 30 janvier 2025 | ✅ Mesuré |
| 9 | Claude Haiku 4.5 | Anthropic | 96,4 % | 15 octobre 2025 | ✅ Mesuré |
| 10 | Gemini 2.5 Pro Preview | Google DeepMind | 95,9 % | 5 juin 2025 | ✅ Mesuré |
| 11 | GPT-5 nano | OpenAI | 95,2 % | 7 août 2025 | ✅ Mesuré |
| 12 | o1 | OpenAI | 94,7 % | 17 décembre 2024 | ✅ Mesuré |
| 13 | Claude 3.7 Sonnet | Anthropic | 91,2 % | 24 février 2025 | ✅ Mesuré |
| 14 | Grok-3 Mini | xAI | 90,9 % | 17 février 2025 | ✅ Mesuré |
| 15 | DeepSeek R1 Distill Llama 70B | DeepSeek | 89,9 % | 20 janvier 2025 | ✅ Mesuré |
| 16 | o1-mini | OpenAI | 89,2 % | 12 septembre 2024 | ✅ Mesuré |
| 17 | Grok-3 | xAI | 88,7 % | 17 février 2025 | ✅ Mesuré |
| 18 | GPT-4.1 mini | OpenAI | 87,3 % | 14 avril 2025 | ✅ Mesuré |
| 19 | DeepSeek R1 Distill Qwen 14B | DeepSeek | 87,1 % | 20 janvier 2025 | ✅ Mesuré |
| 20 | Claude Opus 4 | Anthropic | 85,0 % | 22 mai 2025 | ✅ Mesuré |
Classement établi sur 84 modèles évalués, dont 77 de grands éditeurs. Score médian de l'ensemble : 56,2 %.
Notre analyse
Un score élevé sur Epoch: MATH level 5 indique une forte aptitude à résoudre des problèmes mathématiques exigeants, proches de ceux rencontrés en compétition. L’accuracy mesure directement la part de réponses correctes, ce qui rend le résultat lisible, mais ne décrit pas la qualité du raisonnement ni les étapes suivies pour arriver à la réponse. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, même si cela ne signifie pas que chaque résultat de la base bénéficie du même niveau de vérification.
Le classement montre un écart marqué entre la médiane de l’ensemble, à 56 %, et le meilleur score observé, GPT-5 (OpenAI) à 98 %, signe que les modèles les plus performants approchent une forme de saturation sur ce sous-ensemble. Cette saturation limite la capacité du benchmark à départager les systèmes de pointe. Le caractère public de MATH crée aussi un risque de contamination des données d’entraînement. Enfin, la portée reste ciblée : l’évaluation porte sur des problèmes mathématiques en anglais, et ne résume pas les compétences générales d’un modèle.
Sources des scores : epoch.