FrontierMath-2025-02-28-Private

Epoch: FrontierMath-2025-02-28-Private est un benchmark privé d’Epoch AI consacré au raisonnement mathématique avancé. Il regroupe des problèmes originaux de niveau recherche, couvrant notamment la théorie des nombres, l’analyse réelle, la géométrie algébrique et la théorie des catégories.

Epoch: FrontierMath-2025-02-28-Private est un benchmark privé d’Epoch AI consacré au raisonnement mathématique avancé. Il regroupe des problèmes originaux de niveau recherche, couvrant notamment la théorie des nombres, l’analyse réelle, la géométrie algébrique et la théorie des catégories.

Son objectif est d’évaluer la capacité des modèles d’IA à résoudre des questions mathématiques extrêmement difficiles, avec des réponses numériques ou symboliques soumises sous forme d’objets Python. Il sert ainsi de test exigeant pour distinguer les systèmes capables de raisonnement formel profond.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesRaisonnement mathématique avancé de niveau recherche (théorie des nombres, analyse réelle, géométrie algébrique, théorie des catégories).
ModalitéTexte
Type de questionsProblèmes ouverts à réponse numérique/symbolique (soumis comme objets Python)
Métrique d'évaluationExactitude binaire (% de problèmes résolus, 1/0 par problème)
AccèsJeu de test privé (réponses non divulguées)
Licencepropriétaire
LanguesAnglais
Taille du jeu≈300 problèmes (jeu privé ; FrontierMath comptait ~350 problèmes Tiers 1-4 à l'origine)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5 ProOpenAI52,4 %23 avril 2026✅ Mesuré
2GPT-5.5OpenAI51,7 %23 avril 2026✅ Mesuré
3OpenAI: GPT-5.4 ProOpenAI50,0 %5 mars 2026✅ Mesuré
4GPT-5.4OpenAI47,6 %5 mars 2026✅ Mesuré
5Claude Opus 4.8Anthropic47,2 %28 mai 2026✅ Mesuré
6Claude Opus 4.7Anthropic43,8 %12 mai 2026✅ Mesuré
7Claude Opus 4.6Anthropic40,7 %7 avril 2026✅ Mesuré
8GPT-5.2OpenAI40,7 %11 décembre 2025✅ Mesuré
9Muse SparkMeta39,0 %8 avril 2026✅ Mesuré
10Gemini 3.5 FlashGoogle39,0 %19 mai 2026✅ Mesuré
11Kimi K2.6Moonshot AI39,0 %20 avril 2026✅ Mesuré
12Gemini 3 ProGoogle37,6 %18 novembre 2025✅ Mesuré
13Gemini 3.1 Pro PreviewGoogle36,9 %19 février 2026✅ Mesuré
14Gemini 3 FlashGoogle35,6 %17 décembre 2025✅ Mesuré
15GLM-5.1Zhipu AI33,4 %7 avril 2026✅ Mesuré
16GPT-5OpenAI32,4 %7 août 2025✅ Mesuré
17Claude Sonnet 4.6Anthropic32,4 %17 février 2026✅ Mesuré
18GPT-5.1OpenAI31,0 %13 novembre 2025✅ Mesuré
19Gemini 2.5 Deep ThinkGoogle,Google DeepMind29,0 %1 août 2025✅ Mesuré
20GPT-5.4 miniOpenAI28,3 %17 mars 2026✅ Mesuré

Classement établi sur 69 modèles évalués, dont 60 de grands éditeurs. Score médian de l'ensemble : 14,1 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-2025-02-28-Private indique une capacité rare à résoudre des problèmes mathématiques complexes et peu standardisés, au-delà des exercices académiques courants. La métrique binaire rend l’interprétation directe, un problème est compté comme résolu ou non, ce qui limite les effets de notation partielle. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, et par le caractère privé du jeu de test, dont les réponses ne sont pas divulguées, afin de réduire les risques de contamination. Les limites restent importantes : le benchmark ne couvre qu’un domaine spécialisé, en anglais, et mesure surtout l’exactitude finale plutôt que la qualité du raisonnement intermédiaire. Le classement montre une forte dispersion entre modèles : avec une médiane à 14 % et un meilleur score de 52 % pour GPT-5.5 Pro, l’évaluation demeure loin d’être saturée.


Sources des scores : epoch.