Autres benchmarks

FrontierMath-2025-02-28-Private

Epoch: FrontierMath-2025-02-28-Private est un benchmark privé d’Epoch AI consacré au raisonnement mathématique avancé. Il regroupe des problèmes originaux de niveau recherche, couvrant notamment la théorie des nombres, l’analyse réelle, la géométrie algébrique et la théorie des catégories.

Son objectif est d’évaluer la capacité des modèles d’IA à résoudre des questions mathématiques extrêmement difficiles, avec des réponses numériques ou symboliques soumises sous forme d’objets Python. Il sert ainsi de test exigeant pour distinguer les systèmes capables de raisonnement formel profond.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Raisonnement mathématique avancé de niveau recherche (théorie des nombres, analyse réelle, géométrie algébrique, théorie des catégories).
Modalité	Texte
Type de questions	Problèmes ouverts à réponse numérique/symbolique (soumis comme objets Python)
Métrique d'évaluation	Exactitude binaire (% de problèmes résolus, 1/0 par problème)
Accès	Jeu de test privé (réponses non divulguées)
Licence	propriétaire
Langues	Anglais
Taille du jeu	≈300 problèmes (jeu privé ; FrontierMath comptait ~350 problèmes Tiers 1-4 à l'origine)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5 Pro	OpenAI	52,4 %	23 avril 2026	✅ Mesuré
2	GPT-5.5	OpenAI	51,7 %	23 avril 2026	✅ Mesuré
3	OpenAI: GPT-5.4 Pro	OpenAI	50,0 %	5 mars 2026	✅ Mesuré
4	GPT-5.4	OpenAI	47,6 %	5 mars 2026	✅ Mesuré
5	Claude Opus 4.8	Anthropic	47,2 %	28 mai 2026	✅ Mesuré
6	Claude Opus 4.7	Anthropic	43,8 %	12 mai 2026	✅ Mesuré
7	Claude Opus 4.6	Anthropic	40,7 %	7 avril 2026	✅ Mesuré
8	GPT-5.2	OpenAI	40,7 %	11 décembre 2025	✅ Mesuré
9	Muse Spark	Meta	39,0 %	8 avril 2026	✅ Mesuré
10	Gemini 3.5 Flash	Google	39,0 %	19 mai 2026	✅ Mesuré
11	Kimi K2.6	Moonshot AI	39,0 %	20 avril 2026	✅ Mesuré
12	Gemini 3 Pro	Google	37,6 %	18 novembre 2025	✅ Mesuré
13	Gemini 3.1 Pro Preview	Google	36,9 %	19 février 2026	✅ Mesuré
14	Gemini 3 Flash	Google	35,6 %	17 décembre 2025	✅ Mesuré
15	GLM-5.1	Zhipu AI	33,4 %	7 avril 2026	✅ Mesuré
16	GPT-5	OpenAI	32,4 %	7 août 2025	✅ Mesuré
17	Claude Sonnet 4.6	Anthropic	32,4 %	17 février 2026	✅ Mesuré
18	GPT-5.1	OpenAI	31,0 %	13 novembre 2025	✅ Mesuré
19	Gemini 2.5 Deep Think	Google,Google DeepMind	29,0 %	1 août 2025	✅ Mesuré
20	GPT-5.4 mini	OpenAI	28,3 %	17 mars 2026	✅ Mesuré

Classement établi sur 69 modèles évalués, dont 60 de grands éditeurs. Score médian de l'ensemble : 14,1 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-2025-02-28-Private indique une capacité rare à résoudre des problèmes mathématiques complexes et peu standardisés, au-delà des exercices académiques courants. La métrique binaire rend l’interprétation directe, un problème est compté comme résolu ou non, ce qui limite les effets de notation partielle. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, et par le caractère privé du jeu de test, dont les réponses ne sont pas divulguées, afin de réduire les risques de contamination. Les limites restent importantes : le benchmark ne couvre qu’un domaine spécialisé, en anglais, et mesure surtout l’exactitude finale plutôt que la qualité du raisonnement intermédiaire. Le classement montre une forte dispersion entre modèles : avec une médiane à 14 % et un meilleur score de 52 % pour GPT-5.5 Pro, l’évaluation demeure loin d’être saturée.

Sources des scores : epoch.

FrontierMath-2025-02-28-Private

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench