Autres benchmarks

FrontierMath-2025-02-28-Public

Epoch: FrontierMath-2025-02-28-Public est un sous-ensemble public de FrontierMath, créé par Epoch AI et publié en 2025. Il rassemble quelques problèmes rendus publics pour illustrer et tester un benchmark centré sur le raisonnement mathématique avancé, avec des questions de niveau…

Le benchmark sert à observer la capacité des modèles à résoudre des problèmes ouverts nécessitant une réponse numérique ou symbolique, soumise comme objet Python. Il joue un rôle d’échantillon public, tandis que l’essentiel de FrontierMath reste privé.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Raisonnement mathématique avancé de niveau recherche (mêmes domaines que FrontierMath, échantillon public d'exemples).
Modalité	Texte
Type de questions	Problèmes ouverts à réponse numérique/symbolique (soumis comme objets Python)
Métrique d'évaluation	Exactitude binaire (% de problèmes résolus, 1/0 par problème)
Accès	Public
Langues	Anglais
Taille du jeu	Petit sous-ensemble public (une dizaine de problèmes rendus publics)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	100,0 %	9 juin 2026	✅ Mesuré
2	Claude Opus 4.6	Anthropic	90,0 %	7 avril 2026	✅ Mesuré
3	Claude Opus 4.7	Anthropic	90,0 %	12 mai 2026	✅ Mesuré
4	Kimi K2.6	Moonshot AI	90,0 %	20 avril 2026	✅ Mesuré
5	Gemini 3.1 Pro Preview	Google	88,9 %	19 février 2026	✅ Mesuré
6	Claude Sonnet 4.6	Anthropic	80,0 %	17 février 2026	✅ Mesuré
7	GLM-5.1	Zhipu AI	80,0 %	7 avril 2026	✅ Mesuré
8	GPT-5.4	OpenAI	80,0 %	5 mars 2026	✅ Mesuré
9	Gemini 3 Pro	Google	80,0 %	18 novembre 2025	✅ Mesuré
10	Gemini 3.5 Flash	Google	80,0 %	19 mai 2026	✅ Mesuré
11	GPT-5	OpenAI	70,0 %	7 août 2025	✅ Mesuré
12	GPT-5.2	OpenAI	60,0 %	11 décembre 2025	✅ Mesuré
13	GPT-5.4 nano	OpenAI	60,0 %	17 mars 2026	✅ Mesuré
14	Gemini 3 Flash	Google	60,0 %	17 décembre 2025	✅ Mesuré
15	OpenAI: GPT-5 Pro	OpenAI	60,0 %	6 octobre 2025	✅ Mesuré
16	GPT-5.4 mini	OpenAI	50,0 %	17 mars 2026	✅ Mesuré
17	Qwen 3.5 Plus	Qwen	50,0 %	16 février 2026	✅ Mesuré
18	Qwen 3.6 Max	Qwen	50,0 %	20 avril 2026	✅ Mesuré
19	Qwen3.6 Plus	Qwen	50,0 %	31 mars 2026	✅ Mesuré
20	Claude Opus 4.5	Anthropic	40,0 %	24 novembre 2025	✅ Mesuré

Classement établi sur 64 modèles évalués, dont 55 de grands éditeurs. Score médian de l'ensemble : 10,0 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-2025-02-28-Public indique qu’un modèle parvient à produire des réponses exactes sur des problèmes mathématiques difficiles, évalués de façon binaire. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre une forte dispersion, avec une médiane à 10% parmi les modèles suivis dans la base, tandis que Claude Fable 5 atteint 100% sur cet échantillon. Cette performance doit toutefois être interprétée avec prudence: le jeu public est très petit, composé d’une dizaine de problèmes, ce qui accroît le risque de saturation statistique et rend chaque item très influent. Sa disponibilité publique peut aussi créer un risque de contamination. Enfin, il ne couvre qu’un échantillon illustratif de FrontierMath et ne remplace pas l’évaluation privée complète du raisonnement mathématique de recherche.

Sources des scores : epoch.

FrontierMath-2025-02-28-Public

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench