Autres benchmarks

FrontierMath-Tier-4-2025-07-01-Private

Epoch: FrontierMath-Tier-4-2025-07-01-Private est une variante privée de FrontierMath, un benchmark conçu par Epoch AI pour tester le raisonnement mathématique avancé des modèles d’IA. Il repose sur des problèmes originaux, élaborés par des experts, avec des réponses courtes et…

Ce benchmark sert à évaluer la capacité des modèles de pointe à traiter des questions mathématiques très difficiles, souvent proches du niveau recherche. Son format privé vise une mesure plus contrôlée des performances, sans divulgation publique des questions ni des réponses.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Mesure la capacité des modèles à résoudre des problèmes mathématiques originaux, très difficiles, nécessitant un raisonnement avancé et souvent de niveau recherche.
Modalité	Texte
Type de questions	questions ouvertes de mathématiques à réponse courte/vérifiable
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Licence	propriétaire
Langues	anglais
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	AI co-mathematician	Google DeepMind	47,9 %	8 mai 2026	✅ Mesuré
2	GPT-5.5 Pro	OpenAI	39,6 %	23 avril 2026	✅ Mesuré
3	OpenAI: GPT-5.4 Pro	OpenAI	37,5 %	5 mars 2026	✅ Mesuré
4	GPT-5.5	OpenAI	35,4 %	23 avril 2026	✅ Mesuré
5	GPT-5.2 Pro	OpenAI	31,3 %	11 décembre 2025	✅ Mesuré
6	Claude Opus 4.8	Anthropic	31,2 %	28 mai 2026	✅ Mesuré
7	GPT-5.4	OpenAI	27,1 %	5 mars 2026	✅ Mesuré
8	Claude Opus 4.7	Anthropic	22,9 %	12 mai 2026	✅ Mesuré
9	Claude Opus 4.6	Anthropic	22,9 %	7 avril 2026	✅ Mesuré
10	GPT-5.2	OpenAI	18,8 %	11 décembre 2025	✅ Mesuré
11	Gemini 3 Pro	Google	18,8 %	18 novembre 2025	✅ Mesuré
12	Gemini 3.1 Pro Preview	Google	16,7 %	19 février 2026	✅ Mesuré
13	Muse Spark	Meta	14,6 %	8 avril 2026	✅ Mesuré
14	OpenAI: GPT-5 Pro	OpenAI	14,6 %	6 octobre 2025	✅ Mesuré
15	Gemini 3.5 Flash	Google	14,6 %	19 mai 2026	✅ Mesuré
16	Kimi K2.6	Moonshot AI	14,6 %	20 avril 2026	✅ Mesuré
17	GLM-5.1	Zhipu AI	12,5 %	7 avril 2026	✅ Mesuré
18	GPT-5	OpenAI	12,5 %	7 août 2025	✅ Mesuré
19	GPT-5.1	OpenAI	12,5 %	13 novembre 2025	✅ Mesuré
20	Gemini 2.5 Deep Think	Google,Google DeepMind	10,4 %	1 août 2025	✅ Mesuré

Classement établi sur 55 modèles évalués, dont 45 de grands éditeurs. Score médian de l'ensemble : 4,2 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-Tier-4-2025-07-01-Private indique une capacité rare à résoudre des problèmes mathématiques inédits nécessitant un raisonnement poussé, au-delà de la simple restitution de connaissances. La métrique d’accuracy rend le résultat lisible, mais elle ne décrit pas la qualité du raisonnement intermédiaire ni la robustesse sur d’autres domaines. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite le poids des déclarations purement auto-rapportées. Le caractère privé du jeu de test réduit aussi le risque de contamination, tout en créant une limite de transparence, puisque les questions et réponses ne sont pas publiques. Le classement montre un benchmark très discriminant: la médiane de l’ensemble reste faible, tandis que AI co-mathematician atteint un niveau nettement supérieur. Cela suggère une absence de saturation et un écart important entre les meilleurs systèmes et la majorité des modèles évalués.

Sources des scores : epoch.

FrontierMath-Tier-4-2025-07-01-Private

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23