FrontierMath-Tier-4-v2-Private
Epoch: FrontierMath-Tier-4-v2-Private est un benchmark conçu par Epoch AI pour évaluer des modèles d’IA sur des problèmes mathématiques originaux et très difficiles. Il cible des tâches ouvertes de mathématiques avancées, avec des réponses courtes ou vérifiables, et met l’accent sur le…
Epoch: FrontierMath-Tier-4-v2-Private est un benchmark conçu par Epoch AI pour évaluer des modèles d’IA sur des problèmes mathématiques originaux et très difficiles. Il cible des tâches ouvertes de mathématiques avancées, avec des réponses courtes ou vérifiables, et met l’accent sur le raisonnement formel, la précision et l’usage possible d’outils calculatoires.
Cette variante correspond au sous-ensemble privé Tier 4 v2 de FrontierMath. Les questions et réponses n’étant pas publiquement divulguées, le benchmark sert de test exigeant pour comparer des modèles de pointe sur des capacités mathématiques spécialisées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Mesure la capacité des modèles à résoudre des problèmes mathématiques originaux de très haut niveau, nécessitant un raisonnement avancé et souvent des outils formels ou calculatoires. |
| Modalité | Texte |
| Type de questions | questions ouvertes de mathématiques avancées à réponse courte ou vérifiable |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 87,8 % | 9 juin 2026 | ✅ Mesuré |
| 2 | GPT-5.5 Pro | OpenAI | 78,0 % | 23 avril 2026 | ✅ Mesuré |
| 3 | AI co-mathematician | Google DeepMind | 75,6 % | 8 mai 2026 | ✅ Mesuré |
| 4 | GPT-5.5 | OpenAI | 72,5 % | 23 avril 2026 | ✅ Mesuré |
| 5 | OpenAI: GPT-5.4 Pro | OpenAI | 58,5 % | 5 mars 2026 | ✅ Mesuré |
| 6 | Claude Opus 4.8 | Anthropic | 56,1 % | 28 mai 2026 | ✅ Mesuré |
| 7 | GPT-5.4 | OpenAI | 49,0 % | 5 mars 2026 | ✅ Mesuré |
| 8 | GPT-5.2 Pro | OpenAI | 46,0 % | 11 décembre 2025 | ✅ Mesuré |
| 9 | Qwen3.7 Max | Qwen | 34,1 % | 19 mai 2026 | ✅ Mesuré |
| 10 | Claude Opus 4.7 | Anthropic | 31,7 % | 12 mai 2026 | ✅ Mesuré |
| 11 | GPT-5.2 | OpenAI | 31,7 % | 11 décembre 2025 | ✅ Mesuré |
| 12 | GLM-5.2 | Zhipu AI | 29,3 % | 16 juin 2026 | ✅ Mesuré |
| 13 | Claude Opus 4.6 | Anthropic | 26,8 % | 7 avril 2026 | ✅ Mesuré |
| 14 | Gemini 3.1 Pro Preview | 26,8 % | 19 février 2026 | ✅ Mesuré | |
| 15 | Gemini 3.5 Flash | 26,8 % | 19 mai 2026 | ✅ Mesuré | |
| 16 | Kimi K2.6 | Moonshot AI | 25,6 % | 20 avril 2026 | ✅ Mesuré |
| 17 | GPT-5 | OpenAI | 22,0 % | 7 août 2025 | ✅ Mesuré |
| 18 | OpenAI: GPT-5 Pro | OpenAI | 19,5 % | 6 octobre 2025 | ✅ Mesuré |
| 19 | Gemini 3 Flash | 17,1 % | 17 décembre 2025 | ✅ Mesuré | |
| 20 | Grok 4.3 Beta | xAI | 14,6 % | 17 avril 2026 | ✅ Mesuré |
Classement établi sur 32 modèles évalués, dont 28 de grands éditeurs. Score médian de l'ensemble : 23,8 %.
Notre analyse
Un score élevé sur Epoch: FrontierMath-Tier-4-v2-Private indique une forte capacité à résoudre des problèmes mathématiques avancés, originaux et difficiles à vérifier sans raisonnement structuré. La métrique d’accuracy rend l’interprétation directe, mais ne décrit pas les stratégies utilisées ni le coût de calcul éventuel. La fiabilité est renforcée par des scores au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux déclarations des fournisseurs. Le caractère privé du jeu de test réduit aussi le risque de mémorisation directe, même si aucune évaluation ne peut exclure totalement les effets de proximité avec des données d’entraînement. Les limites principales tiennent à la portée du test, centré sur les mathématiques avancées en anglais, et à une saturation possible si les meilleurs modèles approchent durablement des scores très élevés. Dans la base, l’écart entre un score médian de 24 % et Claude Fable 5 à 88 % suggère un classement très discriminant entre modèles généralistes et systèmes capables de raisonnement mathématique de haut niveau.
Sources des scores : epoch.