FrontierMath-Tier-4-2025-07-01-Private
Epoch: FrontierMath-Tier-4-2025-07-01-Private est une variante privée de FrontierMath, un benchmark conçu par Epoch AI pour tester le raisonnement mathématique avancé des modèles d’IA. Il repose sur des problèmes originaux, élaborés par des experts, avec des réponses courtes et…
Epoch: FrontierMath-Tier-4-2025-07-01-Private est une variante privée de FrontierMath, un benchmark conçu par Epoch AI pour tester le raisonnement mathématique avancé des modèles d’IA. Il repose sur des problèmes originaux, élaborés par des experts, avec des réponses courtes et vérifiables.
Ce benchmark sert à évaluer la capacité des modèles de pointe à traiter des questions mathématiques très difficiles, souvent proches du niveau recherche. Son format privé vise une mesure plus contrôlée des performances, sans divulgation publique des questions ni des réponses.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Mesure la capacité des modèles à résoudre des problèmes mathématiques originaux, très difficiles, nécessitant un raisonnement avancé et souvent de niveau recherche. |
| Modalité | Texte |
| Type de questions | questions ouvertes de mathématiques à réponse courte/vérifiable |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | propriétaire |
| Langues | anglais |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | AI co-mathematician | Google DeepMind | 47,9 % | 8 mai 2026 | ✅ Mesuré |
| 2 | GPT-5.5 Pro | OpenAI | 39,6 % | 23 avril 2026 | ✅ Mesuré |
| 3 | OpenAI: GPT-5.4 Pro | OpenAI | 37,5 % | 5 mars 2026 | ✅ Mesuré |
| 4 | GPT-5.5 | OpenAI | 35,4 % | 23 avril 2026 | ✅ Mesuré |
| 5 | GPT-5.2 Pro | OpenAI | 31,3 % | 11 décembre 2025 | ✅ Mesuré |
| 6 | Claude Opus 4.8 | Anthropic | 31,2 % | 28 mai 2026 | ✅ Mesuré |
| 7 | GPT-5.4 | OpenAI | 27,1 % | 5 mars 2026 | ✅ Mesuré |
| 8 | Claude Opus 4.7 | Anthropic | 22,9 % | 12 mai 2026 | ✅ Mesuré |
| 9 | Claude Opus 4.6 | Anthropic | 22,9 % | 7 avril 2026 | ✅ Mesuré |
| 10 | GPT-5.2 | OpenAI | 18,8 % | 11 décembre 2025 | ✅ Mesuré |
| 11 | Gemini 3 Pro | 18,8 % | 18 novembre 2025 | ✅ Mesuré | |
| 12 | Gemini 3.1 Pro Preview | 16,7 % | 19 février 2026 | ✅ Mesuré | |
| 13 | Muse Spark | Meta | 14,6 % | 8 avril 2026 | ✅ Mesuré |
| 14 | OpenAI: GPT-5 Pro | OpenAI | 14,6 % | 6 octobre 2025 | ✅ Mesuré |
| 15 | Gemini 3.5 Flash | 14,6 % | 19 mai 2026 | ✅ Mesuré | |
| 16 | Kimi K2.6 | Moonshot AI | 14,6 % | 20 avril 2026 | ✅ Mesuré |
| 17 | GLM-5.1 | Zhipu AI | 12,5 % | 7 avril 2026 | ✅ Mesuré |
| 18 | GPT-5 | OpenAI | 12,5 % | 7 août 2025 | ✅ Mesuré |
| 19 | GPT-5.1 | OpenAI | 12,5 % | 13 novembre 2025 | ✅ Mesuré |
| 20 | Gemini 2.5 Deep Think | Google,Google DeepMind | 10,4 % | 1 août 2025 | ✅ Mesuré |
Classement établi sur 55 modèles évalués, dont 45 de grands éditeurs. Score médian de l'ensemble : 4,2 %.
Notre analyse
Un score élevé sur Epoch: FrontierMath-Tier-4-2025-07-01-Private indique une capacité rare à résoudre des problèmes mathématiques inédits nécessitant un raisonnement poussé, au-delà de la simple restitution de connaissances. La métrique d’accuracy rend le résultat lisible, mais elle ne décrit pas la qualité du raisonnement intermédiaire ni la robustesse sur d’autres domaines. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite le poids des déclarations purement auto-rapportées. Le caractère privé du jeu de test réduit aussi le risque de contamination, tout en créant une limite de transparence, puisque les questions et réponses ne sont pas publiques. Le classement montre un benchmark très discriminant: la médiane de l’ensemble reste faible, tandis que AI co-mathematician atteint un niveau nettement supérieur. Cela suggère une absence de saturation et un écart important entre les meilleurs systèmes et la majorité des modèles évalués.
Sources des scores : epoch.