FrontierMath-Tier-4-2025-07-01-Public
Epoch: FrontierMath-Tier-4-2025-07-01-Public est un benchmark d’Epoch AI consacré au raisonnement mathématique de niveau recherche. Il porte sur les problèmes les plus difficiles de FrontierMath, formulés comme des questions ouvertes à réponse numérique ou symbolique, soumises sous forme…
Epoch: FrontierMath-Tier-4-2025-07-01-Public est un benchmark d’Epoch AI consacré au raisonnement mathématique de niveau recherche. Il porte sur les problèmes les plus difficiles de FrontierMath, formulés comme des questions ouvertes à réponse numérique ou symbolique, soumises sous forme d’objets Python.
Ce sous-ensemble public sert à tester la capacité des modèles à résoudre des tâches qui ressemblent à de courts projets de recherche mathématique. Il occupe un rôle de stress test pour les systèmes d’IA les plus avancés, au-delà des évaluations académiques généralistes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Raisonnement mathématique de niveau recherche extrême : problèmes les plus difficiles de FrontierMath, certains pouvant rester non résolus par l'IA pendant des décennies. |
| Modalité | Texte |
| Type de questions | Problèmes ouverts à réponse numérique/symbolique (soumis comme objets Python) |
| Métrique d'évaluation | Exactitude binaire (% de problèmes résolus) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | Tier 4 : ~50 problèmes (sous-ensemble public restreint, ex. 2 problèmes rendus publics) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 100,0 % | 9 juin 2026 | ✅ Mesuré |
| 2 | GPT-5.4 | OpenAI | 50,0 % | 5 mars 2026 | ✅ Mesuré |
| 3 | Claude 3.5 Sonnet | Anthropic | 0,0 % | 22 octobre 2024 | ✅ Mesuré |
| 4 | Claude 3.7 Sonnet | Anthropic | 0,0 % | 24 février 2025 | ✅ Mesuré |
| 5 | Claude Opus 4 | Anthropic | 0,0 % | 22 mai 2025 | ✅ Mesuré |
| 6 | Claude Opus 4.6 | Anthropic | 0,0 % | 7 avril 2026 | ✅ Mesuré |
| 7 | Claude Opus 4.7 | Anthropic | 0,0 % | 12 mai 2026 | ✅ Mesuré |
| 8 | Claude Sonnet 4 | Anthropic | 0,0 % | 22 mai 2025 | ✅ Mesuré |
| 9 | Claude Sonnet 4.5 | Anthropic | 0,0 % | 29 septembre 2025 | ✅ Mesuré |
| 10 | Claude Sonnet 4.6 | Anthropic | 0,0 % | 17 février 2026 | ✅ Mesuré |
| 11 | DeepSeek-R1 | DeepSeek | 0,0 % | 28 mai 2025 | ✅ Mesuré |
| 12 | GLM-4.5 | Zhipu AI | 0,0 % | 28 juillet 2025 | ✅ Mesuré |
| 13 | GLM-4.6 | Zhipu AI | 0,0 % | 30 septembre 2025 | ✅ Mesuré |
| 14 | GLM-5 | Zhipu AI | 0,0 % | 11 février 2026 | ✅ Mesuré |
| 15 | GLM-5.1 | Zhipu AI | 0,0 % | 7 avril 2026 | ✅ Mesuré |
| 16 | GPT-4.1 | OpenAI | 0,0 % | 14 avril 2025 | ✅ Mesuré |
| 17 | GPT-5 | OpenAI | 0,0 % | 7 août 2025 | ✅ Mesuré |
| 18 | GPT-5 mini | OpenAI | 0,0 % | 7 août 2025 | ✅ Mesuré |
| 19 | GPT-5 nano | OpenAI | 0,0 % | 7 août 2025 | ✅ Mesuré |
| 20 | GPT-5.2 | OpenAI | 0,0 % | 11 décembre 2025 | ✅ Mesuré |
Classement établi sur 36 modèles évalués, dont 30 de grands éditeurs. Score médian de l'ensemble : 0,0 %.
Notre analyse
Un score élevé indique qu’un modèle parvient à produire des réponses exactes sur des problèmes mathématiques exceptionnellement exigeants, avec une notation binaire qui ne récompense que la résolution complète. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre surtout une forte difficulté du benchmark: la médiane est à 0 %, tandis que Claude Fable 5 atteint 100 %, ce qui crée un contraste marqué entre le meilleur résultat observé et l’ensemble des modèles évalués.
Les limites tiennent à la portée très spécialisée du test, centré sur un petit sous-ensemble public du Tier 4. Un résultat élevé ne résume donc pas les capacités générales en mathématiques, en programmation ou en raisonnement. Le caractère public impose aussi une vigilance sur la contamination potentielle, même si le sous-ensemble reste restreint. À l’inverse, l’absence de saturation globale suggère que ce benchmark conserve un pouvoir discriminant pour les modèles de frontière.
Sources des scores : epoch.