Autres benchmarks

MATH level 5

Epoch: MATH level 5 est une évaluation issue du benchmark MATH, créé par D. Hendrycks et al. Elle se concentre sur les problèmes de niveau 5, les plus difficiles de ce jeu de mathématiques de compétition, et mesure la capacité des modèles à produire des réponses courtes à des questions…

Ce benchmark sert à tester le raisonnement mathématique avancé plutôt que la simple reconnaissance de motifs. Il occupe une place utile dans l’évaluation des modèles généralistes, car il met en jeu des démonstrations implicites, des calculs et une compréhension fine d’énoncés formulés en anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	D. Hendrycks et al.
Capacités mesurées	Mesure la capacité à résoudre des problèmes de mathématiques de compétition, en particulier les problèmes les plus difficiles du jeu MATH.
Modalité	Texte
Type de questions	questions ouvertes de mathématiques à réponse courte
Métrique d'évaluation	accuracy
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	sous-ensemble des problèmes de niveau 5 du jeu MATH ; MATH complet contient 12 500 problèmes
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5	OpenAI	98,1 %	7 août 2025	✅ Mesuré
2	GPT-5 mini	OpenAI	97,8 %	7 août 2025	✅ Mesuré
3	o4-mini	OpenAI	97,8 %	16 avril 2025	✅ Mesuré
4	o3	OpenAI	97,8 %	16 avril 2025	✅ Mesuré
5	Claude Sonnet 4.5	Anthropic	97,7 %	29 septembre 2025	✅ Mesuré
6	Qwen3-Max-Instruct	Qwen	97,1 %	24 septembre 2025	✅ Mesuré
7	DeepSeek-R1	DeepSeek	96,6 %	28 mai 2025	✅ Mesuré
8	o3-mini	OpenAI	96,5 %	30 janvier 2025	✅ Mesuré
9	Claude Haiku 4.5	Anthropic	96,4 %	15 octobre 2025	✅ Mesuré
10	Gemini 2.5 Pro Preview	Google DeepMind	95,9 %	5 juin 2025	✅ Mesuré
11	GPT-5 nano	OpenAI	95,2 %	7 août 2025	✅ Mesuré
12	o1	OpenAI	94,7 %	17 décembre 2024	✅ Mesuré
13	Claude 3.7 Sonnet	Anthropic	91,2 %	24 février 2025	✅ Mesuré
14	Grok-3 Mini	xAI	90,9 %	17 février 2025	✅ Mesuré
15	DeepSeek R1 Distill Llama 70B	DeepSeek	89,9 %	20 janvier 2025	✅ Mesuré
16	o1-mini	OpenAI	89,2 %	12 septembre 2024	✅ Mesuré
17	Grok-3	xAI	88,7 %	17 février 2025	✅ Mesuré
18	GPT-4.1 mini	OpenAI	87,3 %	14 avril 2025	✅ Mesuré
19	DeepSeek R1 Distill Qwen 14B	DeepSeek	87,1 %	20 janvier 2025	✅ Mesuré
20	Claude Opus 4	Anthropic	85,0 %	22 mai 2025	✅ Mesuré

Classement établi sur 84 modèles évalués, dont 77 de grands éditeurs. Score médian de l'ensemble : 56,2 %.

Notre analyse

Un score élevé sur Epoch: MATH level 5 indique une forte aptitude à résoudre des problèmes mathématiques exigeants, proches de ceux rencontrés en compétition. L’accuracy mesure directement la part de réponses correctes, ce qui rend le résultat lisible, mais ne décrit pas la qualité du raisonnement ni les étapes suivies pour arriver à la réponse. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, même si cela ne signifie pas que chaque résultat de la base bénéficie du même niveau de vérification.

Le classement montre un écart marqué entre la médiane de l’ensemble, à 56 %, et le meilleur score observé, GPT-5 (OpenAI) à 98 %, signe que les modèles les plus performants approchent une forme de saturation sur ce sous-ensemble. Cette saturation limite la capacité du benchmark à départager les systèmes de pointe. Le caractère public de MATH crée aussi un risque de contamination des données d’entraînement. Enfin, la portée reste ciblée : l’évaluation porte sur des problèmes mathématiques en anglais, et ne résume pas les compétences générales d’un modèle.

Sources des scores : epoch.

MATH level 5

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench