Autres benchmarks

FrontierMath-Tiers-1-3-v2-Private

Epoch: FrontierMath-Tiers-1-3-v2-Private est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il s’appuie sur des problèmes de recherche à réponse exacte, numériques ou symboliques, couvrant un spectre allant du premier cycle à des problèmes exploratoires de niveau…

Ce test sert à situer les modèles d’IA sur des tâches où la réponse peut être vérifiée de manière binaire. Son jeu privé, dont les réponses ne sont pas divulguées, vise à limiter l’apprentissage direct des solutions et à fournir un repère exigeant pour comparer les capacités de résolution mathématique.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Raisonnement mathematique avance, du niveau premier cycle aux problemes exploratoires de niveau doctorat
Modalité	Texte
Type de questions	problemes mathematiques de recherche a reponse exacte (numerique/symbolique)
Métrique d'évaluation	exactitude binaire (1 si correct, 0 sinon)
Accès	Jeu de test privé (réponses non divulguées)
Licence	propriétaire
Langues	anglais
Taille du jeu	295 problemes (ensemble prive Tiers 1-3 v2)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5 Pro	OpenAI	87,7 %	23 avril 2026	✅ Mesuré
2	Claude Fable 5	Anthropic	87,0 %	9 juin 2026	✅ Mesuré
3	GPT-5.5	OpenAI	85,3 %	23 avril 2026	✅ Mesuré
4	OpenAI: GPT-5.4 Pro	OpenAI	82,5 %	5 mars 2026	✅ Mesuré
5	Claude Opus 4.8	Anthropic	80,0 %	28 mai 2026	✅ Mesuré
6	GPT-5.4	OpenAI	78,6 %	5 mars 2026	✅ Mesuré
7	GPT-5.2 Pro	OpenAI	74,0 %	11 décembre 2025	✅ Mesuré
8	Claude Opus 4.7	Anthropic	70,2 %	12 mai 2026	✅ Mesuré
9	GPT-5.2	OpenAI	67,4 %	11 décembre 2025	✅ Mesuré
10	Claude Opus 4.6	Anthropic	66,0 %	7 avril 2026	✅ Mesuré
11	Qwen3.7 Max	Qwen	64,6 %	19 mai 2026	✅ Mesuré
12	Gemini 3.5 Flash	Google	62,8 %	19 mai 2026	✅ Mesuré
13	Gemini 3.1 Pro Preview	Google	59,6 %	19 février 2026	✅ Mesuré
14	GLM-5.2	Zhipu AI	59,2 %	16 juin 2026	✅ Mesuré
15	Kimi K2.6	Moonshot AI	57,2 %	20 avril 2026	✅ Mesuré
16	OpenAI: GPT-5 Pro	OpenAI	55,8 %	6 octobre 2025	✅ Mesuré
17	GPT-5	OpenAI	55,4 %	7 août 2025	✅ Mesuré
18	Kimi K2.7 Code	Moonshot AI	54,0 %	12 juin 2026	✅ Mesuré
19	GPT-5.4 mini	OpenAI	51,2 %	17 mars 2026	✅ Mesuré
20	Gemini 3 Flash	Google	51,2 %	17 décembre 2025	✅ Mesuré

Classement établi sur 31 modèles évalués, dont 28 de grands éditeurs. Score médian de l'ensemble : 55,8 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-Tiers-1-3-v2-Private indique une forte capacité à produire des réponses exactes à des problèmes mathématiques difficiles, sans notation partielle. L’évaluation est donc stricte, puisqu’une solution n’est créditée que si elle correspond à la réponse attendue. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, plutôt que seulement auto-déclarés. Le classement montre un écart notable entre la médiane de l’ensemble et le meilleur résultat observé, GPT-5.5 Pro (OpenAI) à 88%, ce qui suggère une différenciation encore nette entre modèles. Les limites tiennent à la portée du test, centré sur des problèmes mathématiques en anglais et à réponse exacte, ainsi qu’au risque général de contamination, même réduit par l’accès privé. La saturation semble limitée tant que les meilleurs modèles ne se rapprochent pas d’une exactitude parfaite, mais le benchmark ne mesure pas d’autres dimensions comme l’explication, la robustesse hors format ou les usages non mathématiques.

Sources des scores : epoch.

FrontierMath-Tiers-1-3-v2-Private

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench