FrontierMath-2025-02-28-Private
Epoch: FrontierMath-2025-02-28-Private est un benchmark privé d’Epoch AI consacré au raisonnement mathématique avancé. Il regroupe des problèmes originaux de niveau recherche, couvrant notamment la théorie des nombres, l’analyse réelle, la géométrie algébrique et la théorie des catégories.
Epoch: FrontierMath-2025-02-28-Private est un benchmark privé d’Epoch AI consacré au raisonnement mathématique avancé. Il regroupe des problèmes originaux de niveau recherche, couvrant notamment la théorie des nombres, l’analyse réelle, la géométrie algébrique et la théorie des catégories.
Son objectif est d’évaluer la capacité des modèles d’IA à résoudre des questions mathématiques extrêmement difficiles, avec des réponses numériques ou symboliques soumises sous forme d’objets Python. Il sert ainsi de test exigeant pour distinguer les systèmes capables de raisonnement formel profond.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Raisonnement mathématique avancé de niveau recherche (théorie des nombres, analyse réelle, géométrie algébrique, théorie des catégories). |
| Modalité | Texte |
| Type de questions | Problèmes ouverts à réponse numérique/symbolique (soumis comme objets Python) |
| Métrique d'évaluation | Exactitude binaire (% de problèmes résolus, 1/0 par problème) |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | propriétaire |
| Langues | Anglais |
| Taille du jeu | ≈300 problèmes (jeu privé ; FrontierMath comptait ~350 problèmes Tiers 1-4 à l'origine) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 Pro | OpenAI | 52,4 % | 23 avril 2026 | ✅ Mesuré |
| 2 | GPT-5.5 | OpenAI | 51,7 % | 23 avril 2026 | ✅ Mesuré |
| 3 | OpenAI: GPT-5.4 Pro | OpenAI | 50,0 % | 5 mars 2026 | ✅ Mesuré |
| 4 | GPT-5.4 | OpenAI | 47,6 % | 5 mars 2026 | ✅ Mesuré |
| 5 | Claude Opus 4.8 | Anthropic | 47,2 % | 28 mai 2026 | ✅ Mesuré |
| 6 | Claude Opus 4.7 | Anthropic | 43,8 % | 12 mai 2026 | ✅ Mesuré |
| 7 | Claude Opus 4.6 | Anthropic | 40,7 % | 7 avril 2026 | ✅ Mesuré |
| 8 | GPT-5.2 | OpenAI | 40,7 % | 11 décembre 2025 | ✅ Mesuré |
| 9 | Muse Spark | Meta | 39,0 % | 8 avril 2026 | ✅ Mesuré |
| 10 | Gemini 3.5 Flash | 39,0 % | 19 mai 2026 | ✅ Mesuré | |
| 11 | Kimi K2.6 | Moonshot AI | 39,0 % | 20 avril 2026 | ✅ Mesuré |
| 12 | Gemini 3 Pro | 37,6 % | 18 novembre 2025 | ✅ Mesuré | |
| 13 | Gemini 3.1 Pro Preview | 36,9 % | 19 février 2026 | ✅ Mesuré | |
| 14 | Gemini 3 Flash | 35,6 % | 17 décembre 2025 | ✅ Mesuré | |
| 15 | GLM-5.1 | Zhipu AI | 33,4 % | 7 avril 2026 | ✅ Mesuré |
| 16 | GPT-5 | OpenAI | 32,4 % | 7 août 2025 | ✅ Mesuré |
| 17 | Claude Sonnet 4.6 | Anthropic | 32,4 % | 17 février 2026 | ✅ Mesuré |
| 18 | GPT-5.1 | OpenAI | 31,0 % | 13 novembre 2025 | ✅ Mesuré |
| 19 | Gemini 2.5 Deep Think | Google,Google DeepMind | 29,0 % | 1 août 2025 | ✅ Mesuré |
| 20 | GPT-5.4 mini | OpenAI | 28,3 % | 17 mars 2026 | ✅ Mesuré |
Classement établi sur 69 modèles évalués, dont 60 de grands éditeurs. Score médian de l'ensemble : 14,1 %.
Notre analyse
Un score élevé sur Epoch: FrontierMath-2025-02-28-Private indique une capacité rare à résoudre des problèmes mathématiques complexes et peu standardisés, au-delà des exercices académiques courants. La métrique binaire rend l’interprétation directe, un problème est compté comme résolu ou non, ce qui limite les effets de notation partielle. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, et par le caractère privé du jeu de test, dont les réponses ne sont pas divulguées, afin de réduire les risques de contamination. Les limites restent importantes : le benchmark ne couvre qu’un domaine spécialisé, en anglais, et mesure surtout l’exactitude finale plutôt que la qualité du raisonnement intermédiaire. Le classement montre une forte dispersion entre modèles : avec une médiane à 14 % et un meilleur score de 52 % pour GPT-5.5 Pro, l’évaluation demeure loin d’être saturée.
Sources des scores : epoch.