Autres benchmarks

FrontierMath-Tier-4-v2-Private

Epoch: FrontierMath-Tier-4-v2-Private est un benchmark conçu par Epoch AI pour évaluer des modèles d’IA sur des problèmes mathématiques originaux et très difficiles. Il cible des tâches ouvertes de mathématiques avancées, avec des réponses courtes ou vérifiables, et met l’accent sur le…

Cette variante correspond au sous-ensemble privé Tier 4 v2 de FrontierMath. Les questions et réponses n’étant pas publiquement divulguées, le benchmark sert de test exigeant pour comparer des modèles de pointe sur des capacités mathématiques spécialisées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Mesure la capacité des modèles à résoudre des problèmes mathématiques originaux de très haut niveau, nécessitant un raisonnement avancé et souvent des outils formels ou calculatoires.
Modalité	Texte
Type de questions	questions ouvertes de mathématiques avancées à réponse courte ou vérifiable
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	87,8 %	9 juin 2026	✅ Mesuré
2	GPT-5.5 Pro	OpenAI	78,0 %	23 avril 2026	✅ Mesuré
3	AI co-mathematician	Google DeepMind	75,6 %	8 mai 2026	✅ Mesuré
4	GPT-5.5	OpenAI	72,5 %	23 avril 2026	✅ Mesuré
5	OpenAI: GPT-5.4 Pro	OpenAI	58,5 %	5 mars 2026	✅ Mesuré
6	Claude Opus 4.8	Anthropic	56,1 %	28 mai 2026	✅ Mesuré
7	GPT-5.4	OpenAI	49,0 %	5 mars 2026	✅ Mesuré
8	GPT-5.2 Pro	OpenAI	46,0 %	11 décembre 2025	✅ Mesuré
9	Qwen3.7 Max	Qwen	34,1 %	19 mai 2026	✅ Mesuré
10	Claude Opus 4.7	Anthropic	31,7 %	12 mai 2026	✅ Mesuré
11	GPT-5.2	OpenAI	31,7 %	11 décembre 2025	✅ Mesuré
12	GLM-5.2	Zhipu AI	29,3 %	16 juin 2026	✅ Mesuré
13	Claude Opus 4.6	Anthropic	26,8 %	7 avril 2026	✅ Mesuré
14	Gemini 3.1 Pro Preview	Google	26,8 %	19 février 2026	✅ Mesuré
15	Gemini 3.5 Flash	Google	26,8 %	19 mai 2026	✅ Mesuré
16	Kimi K2.6	Moonshot AI	25,6 %	20 avril 2026	✅ Mesuré
17	GPT-5	OpenAI	22,0 %	7 août 2025	✅ Mesuré
18	OpenAI: GPT-5 Pro	OpenAI	19,5 %	6 octobre 2025	✅ Mesuré
19	Gemini 3 Flash	Google	17,1 %	17 décembre 2025	✅ Mesuré
20	Grok 4.3 Beta	xAI	14,6 %	17 avril 2026	✅ Mesuré

Classement établi sur 32 modèles évalués, dont 28 de grands éditeurs. Score médian de l'ensemble : 23,8 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-Tier-4-v2-Private indique une forte capacité à résoudre des problèmes mathématiques avancés, originaux et difficiles à vérifier sans raisonnement structuré. La métrique d’accuracy rend l’interprétation directe, mais ne décrit pas les stratégies utilisées ni le coût de calcul éventuel. La fiabilité est renforcée par des scores au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux déclarations des fournisseurs. Le caractère privé du jeu de test réduit aussi le risque de mémorisation directe, même si aucune évaluation ne peut exclure totalement les effets de proximité avec des données d’entraînement. Les limites principales tiennent à la portée du test, centré sur les mathématiques avancées en anglais, et à une saturation possible si les meilleurs modèles approchent durablement des scores très élevés. Dans la base, l’écart entre un score médian de 24 % et Claude Fable 5 à 88 % suggère un classement très discriminant entre modèles généralistes et systèmes capables de raisonnement mathématique de haut niveau.

Sources des scores : epoch.

FrontierMath-Tier-4-v2-Private

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench