FrontierMath-Tiers-1-3-v2-Private
Epoch: FrontierMath-Tiers-1-3-v2-Private est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il s’appuie sur des problèmes de recherche à réponse exacte, numériques ou symboliques, couvrant un spectre allant du premier cycle à des problèmes exploratoires de niveau…
Epoch: FrontierMath-Tiers-1-3-v2-Private est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il s’appuie sur des problèmes de recherche à réponse exacte, numériques ou symboliques, couvrant un spectre allant du premier cycle à des problèmes exploratoires de niveau doctorat.
Ce test sert à situer les modèles d’IA sur des tâches où la réponse peut être vérifiée de manière binaire. Son jeu privé, dont les réponses ne sont pas divulguées, vise à limiter l’apprentissage direct des solutions et à fournir un repère exigeant pour comparer les capacités de résolution mathématique.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Raisonnement mathematique avance, du niveau premier cycle aux problemes exploratoires de niveau doctorat |
| Modalité | Texte |
| Type de questions | problemes mathematiques de recherche a reponse exacte (numerique/symbolique) |
| Métrique d'évaluation | exactitude binaire (1 si correct, 0 sinon) |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | propriétaire |
| Langues | anglais |
| Taille du jeu | 295 problemes (ensemble prive Tiers 1-3 v2) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 Pro | OpenAI | 87,7 % | 23 avril 2026 | ✅ Mesuré |
| 2 | Claude Fable 5 | Anthropic | 87,0 % | 9 juin 2026 | ✅ Mesuré |
| 3 | GPT-5.5 | OpenAI | 85,3 % | 23 avril 2026 | ✅ Mesuré |
| 4 | OpenAI: GPT-5.4 Pro | OpenAI | 82,5 % | 5 mars 2026 | ✅ Mesuré |
| 5 | Claude Opus 4.8 | Anthropic | 80,0 % | 28 mai 2026 | ✅ Mesuré |
| 6 | GPT-5.4 | OpenAI | 78,6 % | 5 mars 2026 | ✅ Mesuré |
| 7 | GPT-5.2 Pro | OpenAI | 74,0 % | 11 décembre 2025 | ✅ Mesuré |
| 8 | Claude Opus 4.7 | Anthropic | 70,2 % | 12 mai 2026 | ✅ Mesuré |
| 9 | GPT-5.2 | OpenAI | 67,4 % | 11 décembre 2025 | ✅ Mesuré |
| 10 | Claude Opus 4.6 | Anthropic | 66,0 % | 7 avril 2026 | ✅ Mesuré |
| 11 | Qwen3.7 Max | Qwen | 64,6 % | 19 mai 2026 | ✅ Mesuré |
| 12 | Gemini 3.5 Flash | 62,8 % | 19 mai 2026 | ✅ Mesuré | |
| 13 | Gemini 3.1 Pro Preview | 59,6 % | 19 février 2026 | ✅ Mesuré | |
| 14 | GLM-5.2 | Zhipu AI | 59,2 % | 16 juin 2026 | ✅ Mesuré |
| 15 | Kimi K2.6 | Moonshot AI | 57,2 % | 20 avril 2026 | ✅ Mesuré |
| 16 | OpenAI: GPT-5 Pro | OpenAI | 55,8 % | 6 octobre 2025 | ✅ Mesuré |
| 17 | GPT-5 | OpenAI | 55,4 % | 7 août 2025 | ✅ Mesuré |
| 18 | Kimi K2.7 Code | Moonshot AI | 54,0 % | 12 juin 2026 | ✅ Mesuré |
| 19 | GPT-5.4 mini | OpenAI | 51,2 % | 17 mars 2026 | ✅ Mesuré |
| 20 | Gemini 3 Flash | 51,2 % | 17 décembre 2025 | ✅ Mesuré |
Classement établi sur 31 modèles évalués, dont 28 de grands éditeurs. Score médian de l'ensemble : 55,8 %.
Notre analyse
Un score élevé sur Epoch: FrontierMath-Tiers-1-3-v2-Private indique une forte capacité à produire des réponses exactes à des problèmes mathématiques difficiles, sans notation partielle. L’évaluation est donc stricte, puisqu’une solution n’est créditée que si elle correspond à la réponse attendue. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés. Le classement montre un écart notable entre la médiane de l’ensemble et le meilleur résultat observé, GPT-5.5 Pro (OpenAI) à 88%, ce qui suggère une différenciation encore nette entre modèles. Les limites tiennent à la portée du test, centré sur des problèmes mathématiques en anglais et à réponse exacte, ainsi qu’au risque général de contamination, même réduit par l’accès privé. La saturation semble limitée tant que les meilleurs modèles ne se rapprochent pas d’une exactitude parfaite, mais le benchmark ne mesure pas d’autres dimensions comme l’explication, la robustesse hors format ou les usages non mathématiques.
Sources des scores : epoch.