FrontierMath-2025-02-28-Public

Epoch: FrontierMath-2025-02-28-Public est un sous-ensemble public de FrontierMath, créé par Epoch AI et publié en 2025. Il rassemble quelques problèmes rendus publics pour illustrer et tester un benchmark centré sur le raisonnement mathématique avancé, avec des questions de niveau…

Epoch: FrontierMath-2025-02-28-Public est un sous-ensemble public de FrontierMath, créé par Epoch AI et publié en 2025. Il rassemble quelques problèmes rendus publics pour illustrer et tester un benchmark centré sur le raisonnement mathématique avancé, avec des questions de niveau recherche.

Le benchmark sert à observer la capacité des modèles à résoudre des problèmes ouverts nécessitant une réponse numérique ou symbolique, soumise comme objet Python. Il joue un rôle d’échantillon public, tandis que l’essentiel de FrontierMath reste privé.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesRaisonnement mathématique avancé de niveau recherche (mêmes domaines que FrontierMath, échantillon public d'exemples).
ModalitéTexte
Type de questionsProblèmes ouverts à réponse numérique/symbolique (soumis comme objets Python)
Métrique d'évaluationExactitude binaire (% de problèmes résolus, 1/0 par problème)
AccèsPublic
LanguesAnglais
Taille du jeuPetit sous-ensemble public (une dizaine de problèmes rendus publics)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic100,0 %9 juin 2026✅ Mesuré
2Claude Opus 4.6Anthropic90,0 %7 avril 2026✅ Mesuré
3Claude Opus 4.7Anthropic90,0 %12 mai 2026✅ Mesuré
4Kimi K2.6Moonshot AI90,0 %20 avril 2026✅ Mesuré
5Gemini 3.1 Pro PreviewGoogle88,9 %19 février 2026✅ Mesuré
6Claude Sonnet 4.6Anthropic80,0 %17 février 2026✅ Mesuré
7GLM-5.1Zhipu AI80,0 %7 avril 2026✅ Mesuré
8GPT-5.4OpenAI80,0 %5 mars 2026✅ Mesuré
9Gemini 3 ProGoogle80,0 %18 novembre 2025✅ Mesuré
10Gemini 3.5 FlashGoogle80,0 %19 mai 2026✅ Mesuré
11GPT-5OpenAI70,0 %7 août 2025✅ Mesuré
12GPT-5.2OpenAI60,0 %11 décembre 2025✅ Mesuré
13GPT-5.4 nanoOpenAI60,0 %17 mars 2026✅ Mesuré
14Gemini 3 FlashGoogle60,0 %17 décembre 2025✅ Mesuré
15OpenAI: GPT-5 ProOpenAI60,0 %6 octobre 2025✅ Mesuré
16GPT-5.4 miniOpenAI50,0 %17 mars 2026✅ Mesuré
17Qwen 3.5 PlusQwen50,0 %16 février 2026✅ Mesuré
18Qwen 3.6 MaxQwen50,0 %20 avril 2026✅ Mesuré
19Qwen3.6 PlusQwen50,0 %31 mars 2026✅ Mesuré
20Claude Opus 4.5Anthropic40,0 %24 novembre 2025✅ Mesuré

Classement établi sur 64 modèles évalués, dont 55 de grands éditeurs. Score médian de l'ensemble : 10,0 %.

Notre analyse

Un score élevé sur Epoch: FrontierMath-2025-02-28-Public indique qu’un modèle parvient à produire des réponses exactes sur des problèmes mathématiques difficiles, évalués de façon binaire. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre une forte dispersion, avec une médiane à 10% parmi les modèles suivis dans la base, tandis que Claude Fable 5 atteint 100% sur cet échantillon. Cette performance doit toutefois être interprétée avec prudence: le jeu public est très petit, composé d’une dizaine de problèmes, ce qui accroît le risque de saturation statistique et rend chaque item très influent. Sa disponibilité publique peut aussi créer un risque de contamination. Enfin, il ne couvre qu’un échantillon illustratif de FrontierMath et ne remplace pas l’évaluation privée complète du raisonnement mathématique de recherche.


Sources des scores : epoch.