FrontierMath-Tier-4-2025-07-01-Public

Epoch: FrontierMath-Tier-4-2025-07-01-Public est un benchmark d’Epoch AI consacré au raisonnement mathématique de niveau recherche. Il porte sur les problèmes les plus difficiles de FrontierMath, formulés comme des questions ouvertes à réponse numérique ou symbolique, soumises sous forme…

Epoch: FrontierMath-Tier-4-2025-07-01-Public est un benchmark d’Epoch AI consacré au raisonnement mathématique de niveau recherche. Il porte sur les problèmes les plus difficiles de FrontierMath, formulés comme des questions ouvertes à réponse numérique ou symbolique, soumises sous forme d’objets Python.

Ce sous-ensemble public sert à tester la capacité des modèles à résoudre des tâches qui ressemblent à de courts projets de recherche mathématique. Il occupe un rôle de stress test pour les systèmes d’IA les plus avancés, au-delà des évaluations académiques généralistes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesRaisonnement mathématique de niveau recherche extrême : problèmes les plus difficiles de FrontierMath, certains pouvant rester non résolus par l'IA pendant des décennies.
ModalitéTexte
Type de questionsProblèmes ouverts à réponse numérique/symbolique (soumis comme objets Python)
Métrique d'évaluationExactitude binaire (% de problèmes résolus)
AccèsPublic
LanguesAnglais
Taille du jeuTier 4 : ~50 problèmes (sous-ensemble public restreint, ex. 2 problèmes rendus publics)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic100,0 %9 juin 2026✅ Mesuré
2GPT-5.4OpenAI50,0 %5 mars 2026✅ Mesuré
3Claude 3.5 SonnetAnthropic0,0 %22 octobre 2024✅ Mesuré
4Claude 3.7 SonnetAnthropic0,0 %24 février 2025✅ Mesuré
5Claude Opus 4Anthropic0,0 %22 mai 2025✅ Mesuré
6Claude Opus 4.6Anthropic0,0 %7 avril 2026✅ Mesuré
7Claude Opus 4.7Anthropic0,0 %12 mai 2026✅ Mesuré
8Claude Sonnet 4Anthropic0,0 %22 mai 2025✅ Mesuré
9Claude Sonnet 4.5Anthropic0,0 %29 septembre 2025✅ Mesuré
10Claude Sonnet 4.6Anthropic0,0 %17 février 2026✅ Mesuré
11DeepSeek-R1DeepSeek0,0 %28 mai 2025✅ Mesuré
12GLM-4.5Zhipu AI0,0 %28 juillet 2025✅ Mesuré
13GLM-4.6Zhipu AI0,0 %30 septembre 2025✅ Mesuré
14GLM-5Zhipu AI0,0 %11 février 2026✅ Mesuré
15GLM-5.1Zhipu AI0,0 %7 avril 2026✅ Mesuré
16GPT-4.1OpenAI0,0 %14 avril 2025✅ Mesuré
17GPT-5OpenAI0,0 %7 août 2025✅ Mesuré
18GPT-5 miniOpenAI0,0 %7 août 2025✅ Mesuré
19GPT-5 nanoOpenAI0,0 %7 août 2025✅ Mesuré
20GPT-5.2OpenAI0,0 %11 décembre 2025✅ Mesuré

Classement établi sur 36 modèles évalués, dont 30 de grands éditeurs. Score médian de l'ensemble : 0,0 %.

Notre analyse

Un score élevé indique qu’un modèle parvient à produire des réponses exactes sur des problèmes mathématiques exceptionnellement exigeants, avec une notation binaire qui ne récompense que la résolution complète. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre surtout une forte difficulté du benchmark: la médiane est à 0 %, tandis que Claude Fable 5 atteint 100 %, ce qui crée un contraste marqué entre le meilleur résultat observé et l’ensemble des modèles évalués.

Les limites tiennent à la portée très spécialisée du test, centré sur un petit sous-ensemble public du Tier 4. Un résultat élevé ne résume donc pas les capacités générales en mathématiques, en programmation ou en raisonnement. Le caractère public impose aussi une vigilance sur la contamination potentielle, même si le sous-ensemble reste restreint. À l’inverse, l’absence de saturation globale suggère que ce benchmark conserve un pouvoir discriminant pour les modèles de frontière.


Sources des scores : epoch.