FrontierMath-Tiers-1-3-v2-Private

Epoch: FrontierMath-Tiers-1-3-v2-Private est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il s’appuie sur des problèmes de recherche à réponse exacte, numériques ou symboliques, couvrant un spectre allant du premier cycle à des problèmes exploratoires de niveau…

Epoch: FrontierMath-Tiers-1-3-v2-Private est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il s’appuie sur des problèmes de recherche à réponse exacte, numériques ou symboliques, couvrant un spectre allant du premier cycle à des problèmes exploratoires de niveau doctorat.

Ce test sert à situer les modèles d’IA sur des tâches où la réponse peut être vérifiée de manière binaire. Son jeu privé, dont les réponses ne sont pas divulguées, vise à limiter l’apprentissage direct des solutions et à fournir un repère exigeant pour comparer les capacités de résolution mathématique.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesRaisonnement mathematique avance, du niveau premier cycle aux problemes exploratoires de niveau doctorat
ModalitéTexte
Type de questionsproblemes mathematiques de recherche a reponse exacte (numerique/symbolique)
Métrique d'évaluationexactitude binaire (1 si correct, 0 sinon)
AccèsJeu de test privé (réponses non divulguées)
Licencepropriétaire
Languesanglais
Taille du jeu295 problemes (ensemble prive Tiers 1-3 v2)
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5 ProOpenAI87,7 %23 avril 2026✅ Mesuré
2Claude Fable 5Anthropic87,0 %9 juin 2026✅ Mesuré
3GPT-5.5OpenAI85,3 %23 avril 2026✅ Mesuré
4OpenAI: GPT-5.4 ProOpenAI82,5 %5 mars 2026✅ Mesuré
5Claude Opus 4.8Anthropic80,0 %28 mai 2026✅ Mesuré
6GPT-5.4OpenAI78,6 %5 mars 2026✅ Mesuré
7GPT-5.2 ProOpenAI74,0 %11 décembre 2025✅ Mesuré
8Claude Opus 4.7Anthropic70,2 %12 mai 2026✅ Mesuré
9GPT-5.2OpenAI67,4 %11 décembre 2025✅ Mesuré
10Claude Opus 4.6Anthropic66,0 %7 avril 2026✅ Mesuré
11Qwen3.7 MaxQwen64,6 %19 mai 2026✅ Mesuré
12Gemini 3.5 FlashGoogle62,8 %19 mai 2026✅ Mesuré
13Gemini 3.1 Pro PreviewGoogle59,6 %19 février 2026✅ Mesuré
14GLM-5.2Zhipu AI59,2 %16 juin 2026✅ Mesuré
15Kimi K2.6Moonshot AI57,2 %20 avril 2026✅ Mesuré
16OpenAI: GPT-5 ProOpenAI55,8 %6 octobre 2025✅ Mesuré
17GPT-5OpenAI55,4 %7 août 2025✅ Mesuré
18Kimi K2.7 CodeMoonshot AI54,0 %12 juin 2026✅ Mesuré
19GPT-5.4 miniOpenAI51,2 %17 mars 2026✅ Mesuré
20Gemini 3 FlashGoogle51,2 %17 décembre 2025✅ Mesuré

Classement établi sur 31 modèles évalués, dont 28 de grands éditeurs. Score médian de l'ensemble : 55,8 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-Tiers-1-3-v2-Private indique une forte capacité à produire des réponses exactes à des problèmes mathématiques difficiles, sans notation partielle. L’évaluation est donc stricte, puisqu’une solution n’est créditée que si elle correspond à la réponse attendue. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés. Le classement montre un écart notable entre la médiane de l’ensemble et le meilleur résultat observé, GPT-5.5 Pro (OpenAI) à 88%, ce qui suggère une différenciation encore nette entre modèles. Les limites tiennent à la portée du test, centré sur des problèmes mathématiques en anglais et à réponse exacte, ainsi qu’au risque général de contamination, même réduit par l’accès privé. La saturation semble limitée tant que les meilleurs modèles ne se rapprochent pas d’une exactitude parfaite, mais le benchmark ne mesure pas d’autres dimensions comme l’explication, la robustesse hors format ou les usages non mathématiques.


Sources des scores : epoch.