FrontierMath-Tier-4-v2-Private

Epoch: FrontierMath-Tier-4-v2-Private est un benchmark conçu par Epoch AI pour évaluer des modèles d’IA sur des problèmes mathématiques originaux et très difficiles. Il cible des tâches ouvertes de mathématiques avancées, avec des réponses courtes ou vérifiables, et met l’accent sur le…

Epoch: FrontierMath-Tier-4-v2-Private est un benchmark conçu par Epoch AI pour évaluer des modèles d’IA sur des problèmes mathématiques originaux et très difficiles. Il cible des tâches ouvertes de mathématiques avancées, avec des réponses courtes ou vérifiables, et met l’accent sur le raisonnement formel, la précision et l’usage possible d’outils calculatoires.

Cette variante correspond au sous-ensemble privé Tier 4 v2 de FrontierMath. Les questions et réponses n’étant pas publiquement divulguées, le benchmark sert de test exigeant pour comparer des modèles de pointe sur des capacités mathématiques spécialisées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesMesure la capacité des modèles à résoudre des problèmes mathématiques originaux de très haut niveau, nécessitant un raisonnement avancé et souvent des outils formels ou calculatoires.
ModalitéTexte
Type de questionsquestions ouvertes de mathématiques avancées à réponse courte ou vérifiable
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic87,8 %9 juin 2026✅ Mesuré
2GPT-5.5 ProOpenAI78,0 %23 avril 2026✅ Mesuré
3AI co-mathematicianGoogle DeepMind75,6 %8 mai 2026✅ Mesuré
4GPT-5.5OpenAI72,5 %23 avril 2026✅ Mesuré
5OpenAI: GPT-5.4 ProOpenAI58,5 %5 mars 2026✅ Mesuré
6Claude Opus 4.8Anthropic56,1 %28 mai 2026✅ Mesuré
7GPT-5.4OpenAI49,0 %5 mars 2026✅ Mesuré
8GPT-5.2 ProOpenAI46,0 %11 décembre 2025✅ Mesuré
9Qwen3.7 MaxQwen34,1 %19 mai 2026✅ Mesuré
10Claude Opus 4.7Anthropic31,7 %12 mai 2026✅ Mesuré
11GPT-5.2OpenAI31,7 %11 décembre 2025✅ Mesuré
12GLM-5.2Zhipu AI29,3 %16 juin 2026✅ Mesuré
13Claude Opus 4.6Anthropic26,8 %7 avril 2026✅ Mesuré
14Gemini 3.1 Pro PreviewGoogle26,8 %19 février 2026✅ Mesuré
15Gemini 3.5 FlashGoogle26,8 %19 mai 2026✅ Mesuré
16Kimi K2.6Moonshot AI25,6 %20 avril 2026✅ Mesuré
17GPT-5OpenAI22,0 %7 août 2025✅ Mesuré
18OpenAI: GPT-5 ProOpenAI19,5 %6 octobre 2025✅ Mesuré
19Gemini 3 FlashGoogle17,1 %17 décembre 2025✅ Mesuré
20Grok 4.3 BetaxAI14,6 %17 avril 2026✅ Mesuré

Classement établi sur 32 modèles évalués, dont 28 de grands éditeurs. Score médian de l'ensemble : 23,8 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-Tier-4-v2-Private indique une forte capacité à résoudre des problèmes mathématiques avancés, originaux et difficiles à vérifier sans raisonnement structuré. La métrique d’accuracy rend l’interprétation directe, mais ne décrit pas les stratégies utilisées ni le coût de calcul éventuel. La fiabilité est renforcée par des scores au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux déclarations des fournisseurs. Le caractère privé du jeu de test réduit aussi le risque de mémorisation directe, même si aucune évaluation ne peut exclure totalement les effets de proximité avec des données d’entraînement. Les limites principales tiennent à la portée du test, centré sur les mathématiques avancées en anglais, et à une saturation possible si les meilleurs modèles approchent durablement des scores très élevés. Dans la base, l’écart entre un score médian de 24 % et Claude Fable 5 à 88 % suggère un classement très discriminant entre modèles généralistes et systèmes capables de raisonnement mathématique de haut niveau.


Sources des scores : epoch.