Autres benchmarks

FrontierMath-Tier-4-2025-07-01-Public

Epoch: FrontierMath-Tier-4-2025-07-01-Public est un benchmark d’Epoch AI consacré au raisonnement mathématique de niveau recherche. Il porte sur les problèmes les plus difficiles de FrontierMath, formulés comme des questions ouvertes à réponse numérique ou symbolique, soumises sous forme…

Ce sous-ensemble public sert à tester la capacité des modèles à résoudre des tâches qui ressemblent à de courts projets de recherche mathématique. Il occupe un rôle de stress test pour les systèmes d’IA les plus avancés, au-delà des évaluations académiques généralistes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Raisonnement mathématique de niveau recherche extrême : problèmes les plus difficiles de FrontierMath, certains pouvant rester non résolus par l'IA pendant des décennies.
Modalité	Texte
Type de questions	Problèmes ouverts à réponse numérique/symbolique (soumis comme objets Python)
Métrique d'évaluation	Exactitude binaire (% de problèmes résolus)
Accès	Public
Langues	Anglais
Taille du jeu	Tier 4 : ~50 problèmes (sous-ensemble public restreint, ex. 2 problèmes rendus publics)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	100,0 %	9 juin 2026	✅ Mesuré
2	GPT-5.4	OpenAI	50,0 %	5 mars 2026	✅ Mesuré
3	Claude 3.5 Sonnet	Anthropic	0,0 %	22 octobre 2024	✅ Mesuré
4	Claude 3.7 Sonnet	Anthropic	0,0 %	24 février 2025	✅ Mesuré
5	Claude Opus 4	Anthropic	0,0 %	22 mai 2025	✅ Mesuré
6	Claude Opus 4.6	Anthropic	0,0 %	7 avril 2026	✅ Mesuré
7	Claude Opus 4.7	Anthropic	0,0 %	12 mai 2026	✅ Mesuré
8	Claude Sonnet 4	Anthropic	0,0 %	22 mai 2025	✅ Mesuré
9	Claude Sonnet 4.5	Anthropic	0,0 %	29 septembre 2025	✅ Mesuré
10	Claude Sonnet 4.6	Anthropic	0,0 %	17 février 2026	✅ Mesuré
11	DeepSeek-R1	DeepSeek	0,0 %	28 mai 2025	✅ Mesuré
12	GLM-4.5	Zhipu AI	0,0 %	28 juillet 2025	✅ Mesuré
13	GLM-4.6	Zhipu AI	0,0 %	30 septembre 2025	✅ Mesuré
14	GLM-5	Zhipu AI	0,0 %	11 février 2026	✅ Mesuré
15	GLM-5.1	Zhipu AI	0,0 %	7 avril 2026	✅ Mesuré
16	GPT-4.1	OpenAI	0,0 %	14 avril 2025	✅ Mesuré
17	GPT-5	OpenAI	0,0 %	7 août 2025	✅ Mesuré
18	GPT-5 mini	OpenAI	0,0 %	7 août 2025	✅ Mesuré
19	GPT-5 nano	OpenAI	0,0 %	7 août 2025	✅ Mesuré
20	GPT-5.2	OpenAI	0,0 %	11 décembre 2025	✅ Mesuré

Classement établi sur 36 modèles évalués, dont 30 de grands éditeurs. Score médian de l'ensemble : 0,0 %.

Notre analyse

Un score élevé indique qu’un modèle parvient à produire des réponses exactes sur des problèmes mathématiques exceptionnellement exigeants, avec une notation binaire qui ne récompense que la résolution complète. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre surtout une forte difficulté du benchmark: la médiane est à 0 %, tandis que Claude Fable 5 atteint 100 %, ce qui crée un contraste marqué entre le meilleur résultat observé et l’ensemble des modèles évalués.

Les limites tiennent à la portée très spécialisée du test, centré sur un petit sous-ensemble public du Tier 4. Un résultat élevé ne résume donc pas les capacités générales en mathématiques, en programmation ou en raisonnement. Le caractère public impose aussi une vigilance sur la contamination potentielle, même si le sous-ensemble reste restreint. À l’inverse, l’absence de saturation globale suggère que ce benchmark conserve un pouvoir discriminant pour les modèles de frontière.

Sources des scores : epoch.

FrontierMath-Tier-4-2025-07-01-Public

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++