FrontierMath-Tier-4-2025-07-01-Private

Epoch: FrontierMath-Tier-4-2025-07-01-Private est une variante privée de FrontierMath, un benchmark conçu par Epoch AI pour tester le raisonnement mathématique avancé des modèles d’IA. Il repose sur des problèmes originaux, élaborés par des experts, avec des réponses courtes et…

Epoch: FrontierMath-Tier-4-2025-07-01-Private est une variante privée de FrontierMath, un benchmark conçu par Epoch AI pour tester le raisonnement mathématique avancé des modèles d’IA. Il repose sur des problèmes originaux, élaborés par des experts, avec des réponses courtes et vérifiables.

Ce benchmark sert à évaluer la capacité des modèles de pointe à traiter des questions mathématiques très difficiles, souvent proches du niveau recherche. Son format privé vise une mesure plus contrôlée des performances, sans divulgation publique des questions ni des réponses.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesMesure la capacité des modèles à résoudre des problèmes mathématiques originaux, très difficiles, nécessitant un raisonnement avancé et souvent de niveau recherche.
ModalitéTexte
Type de questionsquestions ouvertes de mathématiques à réponse courte/vérifiable
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
Licencepropriétaire
Languesanglais
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1AI co-mathematicianGoogle DeepMind47,9 %8 mai 2026✅ Mesuré
2GPT-5.5 ProOpenAI39,6 %23 avril 2026✅ Mesuré
3OpenAI: GPT-5.4 ProOpenAI37,5 %5 mars 2026✅ Mesuré
4GPT-5.5OpenAI35,4 %23 avril 2026✅ Mesuré
5GPT-5.2 ProOpenAI31,3 %11 décembre 2025✅ Mesuré
6Claude Opus 4.8Anthropic31,2 %28 mai 2026✅ Mesuré
7GPT-5.4OpenAI27,1 %5 mars 2026✅ Mesuré
8Claude Opus 4.7Anthropic22,9 %12 mai 2026✅ Mesuré
9Claude Opus 4.6Anthropic22,9 %7 avril 2026✅ Mesuré
10GPT-5.2OpenAI18,8 %11 décembre 2025✅ Mesuré
11Gemini 3 ProGoogle18,8 %18 novembre 2025✅ Mesuré
12Gemini 3.1 Pro PreviewGoogle16,7 %19 février 2026✅ Mesuré
13Muse SparkMeta14,6 %8 avril 2026✅ Mesuré
14OpenAI: GPT-5 ProOpenAI14,6 %6 octobre 2025✅ Mesuré
15Gemini 3.5 FlashGoogle14,6 %19 mai 2026✅ Mesuré
16Kimi K2.6Moonshot AI14,6 %20 avril 2026✅ Mesuré
17GLM-5.1Zhipu AI12,5 %7 avril 2026✅ Mesuré
18GPT-5OpenAI12,5 %7 août 2025✅ Mesuré
19GPT-5.1OpenAI12,5 %13 novembre 2025✅ Mesuré
20Gemini 2.5 Deep ThinkGoogle,Google DeepMind10,4 %1 août 2025✅ Mesuré

Classement établi sur 55 modèles évalués, dont 45 de grands éditeurs. Score médian de l'ensemble : 4,2 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-Tier-4-2025-07-01-Private indique une capacité rare à résoudre des problèmes mathématiques inédits nécessitant un raisonnement poussé, au-delà de la simple restitution de connaissances. La métrique d’accuracy rend le résultat lisible, mais elle ne décrit pas la qualité du raisonnement intermédiaire ni la robustesse sur d’autres domaines. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite le poids des déclarations purement auto-rapportées. Le caractère privé du jeu de test réduit aussi le risque de contamination, tout en créant une limite de transparence, puisque les questions et réponses ne sont pas publiques. Le classement montre un benchmark très discriminant: la médiane de l’ensemble reste faible, tandis que AI co-mathematician atteint un niveau nettement supérieur. Cela suggère une absence de saturation et un écart important entre les meilleurs systèmes et la majorité des modèles évalués.


Sources des scores : epoch.