MATH level 5

Epoch: MATH level 5 est une évaluation issue du benchmark MATH, créé par D. Hendrycks et al. Elle se concentre sur les problèmes de niveau 5, les plus difficiles de ce jeu de mathématiques de compétition, et mesure la capacité des modèles à produire des réponses courtes à des questions…

Epoch: MATH level 5 est une évaluation issue du benchmark MATH, créé par D. Hendrycks et al. Elle se concentre sur les problèmes de niveau 5, les plus difficiles de ce jeu de mathématiques de compétition, et mesure la capacité des modèles à produire des réponses courtes à des questions ouvertes.

Ce benchmark sert à tester le raisonnement mathématique avancé plutôt que la simple reconnaissance de motifs. Il occupe une place utile dans l’évaluation des modèles généralistes, car il met en jeu des démonstrations implicites, des calculs et une compréhension fine d’énoncés formulés en anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkD. Hendrycks et al.
Capacités mesuréesMesure la capacité à résoudre des problèmes de mathématiques de compétition, en particulier les problèmes les plus difficiles du jeu MATH.
ModalitéTexte
Type de questionsquestions ouvertes de mathématiques à réponse courte
Métrique d'évaluationaccuracy
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeusous-ensemble des problèmes de niveau 5 du jeu MATH ; MATH complet contient 12 500 problèmes
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5OpenAI98,1 %7 août 2025✅ Mesuré
2GPT-5 miniOpenAI97,8 %7 août 2025✅ Mesuré
3o4-miniOpenAI97,8 %16 avril 2025✅ Mesuré
4o3OpenAI97,8 %16 avril 2025✅ Mesuré
5Claude Sonnet 4.5Anthropic97,7 %29 septembre 2025✅ Mesuré
6Qwen3-Max-InstructQwen97,1 %24 septembre 2025✅ Mesuré
7DeepSeek-R1DeepSeek96,6 %28 mai 2025✅ Mesuré
8o3-miniOpenAI96,5 %30 janvier 2025✅ Mesuré
9Claude Haiku 4.5Anthropic96,4 %15 octobre 2025✅ Mesuré
10Gemini 2.5 Pro PreviewGoogle DeepMind95,9 %5 juin 2025✅ Mesuré
11GPT-5 nanoOpenAI95,2 %7 août 2025✅ Mesuré
12o1OpenAI94,7 %17 décembre 2024✅ Mesuré
13Claude 3.7 SonnetAnthropic91,2 %24 février 2025✅ Mesuré
14Grok-3 MinixAI90,9 %17 février 2025✅ Mesuré
15DeepSeek R1 Distill Llama 70BDeepSeek89,9 %20 janvier 2025✅ Mesuré
16o1-miniOpenAI89,2 %12 septembre 2024✅ Mesuré
17Grok-3xAI88,7 %17 février 2025✅ Mesuré
18GPT-4.1 miniOpenAI87,3 %14 avril 2025✅ Mesuré
19DeepSeek R1 Distill Qwen 14BDeepSeek87,1 %20 janvier 2025✅ Mesuré
20Claude Opus 4Anthropic85,0 %22 mai 2025✅ Mesuré

Classement établi sur 84 modèles évalués, dont 77 de grands éditeurs. Score médian de l'ensemble : 56,2 %.

Notre analyse

Un score élevé sur Epoch: MATH level 5 indique une forte aptitude à résoudre des problèmes mathématiques exigeants, proches de ceux rencontrés en compétition. L’accuracy mesure directement la part de réponses correctes, ce qui rend le résultat lisible, mais ne décrit pas la qualité du raisonnement ni les étapes suivies pour arriver à la réponse. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, même si cela ne signifie pas que chaque résultat de la base bénéficie du même niveau de vérification.

Le classement montre un écart marqué entre la médiane de l’ensemble, à 56 %, et le meilleur score observé, GPT-5 (OpenAI) à 98 %, signe que les modèles les plus performants approchent une forme de saturation sur ce sous-ensemble. Cette saturation limite la capacité du benchmark à départager les systèmes de pointe. Le caractère public de MATH crée aussi un risque de contamination des données d’entraînement. Enfin, la portée reste ciblée : l’évaluation porte sur des problèmes mathématiques en anglais, et ne résume pas les compétences générales d’un modèle.


Sources des scores : epoch.