FrontierMath-2025-02-28-Public
Epoch: FrontierMath-2025-02-28-Public est un sous-ensemble public de FrontierMath, créé par Epoch AI et publié en 2025. Il rassemble quelques problèmes rendus publics pour illustrer et tester un benchmark centré sur le raisonnement mathématique avancé, avec des questions de niveau…
Epoch: FrontierMath-2025-02-28-Public est un sous-ensemble public de FrontierMath, créé par Epoch AI et publié en 2025. Il rassemble quelques problèmes rendus publics pour illustrer et tester un benchmark centré sur le raisonnement mathématique avancé, avec des questions de niveau recherche.
Le benchmark sert à observer la capacité des modèles à résoudre des problèmes ouverts nécessitant une réponse numérique ou symbolique, soumise comme objet Python. Il joue un rôle d’échantillon public, tandis que l’essentiel de FrontierMath reste privé.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Raisonnement mathématique avancé de niveau recherche (mêmes domaines que FrontierMath, échantillon public d'exemples). |
| Modalité | Texte |
| Type de questions | Problèmes ouverts à réponse numérique/symbolique (soumis comme objets Python) |
| Métrique d'évaluation | Exactitude binaire (% de problèmes résolus, 1/0 par problème) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | Petit sous-ensemble public (une dizaine de problèmes rendus publics) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 100,0 % | 9 juin 2026 | ✅ Mesuré |
| 2 | Claude Opus 4.6 | Anthropic | 90,0 % | 7 avril 2026 | ✅ Mesuré |
| 3 | Claude Opus 4.7 | Anthropic | 90,0 % | 12 mai 2026 | ✅ Mesuré |
| 4 | Kimi K2.6 | Moonshot AI | 90,0 % | 20 avril 2026 | ✅ Mesuré |
| 5 | Gemini 3.1 Pro Preview | 88,9 % | 19 février 2026 | ✅ Mesuré | |
| 6 | Claude Sonnet 4.6 | Anthropic | 80,0 % | 17 février 2026 | ✅ Mesuré |
| 7 | GLM-5.1 | Zhipu AI | 80,0 % | 7 avril 2026 | ✅ Mesuré |
| 8 | GPT-5.4 | OpenAI | 80,0 % | 5 mars 2026 | ✅ Mesuré |
| 9 | Gemini 3 Pro | 80,0 % | 18 novembre 2025 | ✅ Mesuré | |
| 10 | Gemini 3.5 Flash | 80,0 % | 19 mai 2026 | ✅ Mesuré | |
| 11 | GPT-5 | OpenAI | 70,0 % | 7 août 2025 | ✅ Mesuré |
| 12 | GPT-5.2 | OpenAI | 60,0 % | 11 décembre 2025 | ✅ Mesuré |
| 13 | GPT-5.4 nano | OpenAI | 60,0 % | 17 mars 2026 | ✅ Mesuré |
| 14 | Gemini 3 Flash | 60,0 % | 17 décembre 2025 | ✅ Mesuré | |
| 15 | OpenAI: GPT-5 Pro | OpenAI | 60,0 % | 6 octobre 2025 | ✅ Mesuré |
| 16 | GPT-5.4 mini | OpenAI | 50,0 % | 17 mars 2026 | ✅ Mesuré |
| 17 | Qwen 3.5 Plus | Qwen | 50,0 % | 16 février 2026 | ✅ Mesuré |
| 18 | Qwen 3.6 Max | Qwen | 50,0 % | 20 avril 2026 | ✅ Mesuré |
| 19 | Qwen3.6 Plus | Qwen | 50,0 % | 31 mars 2026 | ✅ Mesuré |
| 20 | Claude Opus 4.5 | Anthropic | 40,0 % | 24 novembre 2025 | ✅ Mesuré |
Classement établi sur 64 modèles évalués, dont 55 de grands éditeurs. Score médian de l'ensemble : 10,0 %.
Notre analyse
Un score élevé sur Epoch: FrontierMath-2025-02-28-Public indique qu’un modèle parvient à produire des réponses exactes sur des problèmes mathématiques difficiles, évalués de façon binaire. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs. Le classement montre une forte dispersion, avec une médiane à 10% parmi les modèles suivis dans la base, tandis que Claude Fable 5 atteint 100% sur cet échantillon. Cette performance doit toutefois être interprétée avec prudence: le jeu public est très petit, composé d’une dizaine de problèmes, ce qui accroît le risque de saturation statistique et rend chaque item très influent. Sa disponibilité publique peut aussi créer un risque de contamination. Enfin, il ne couvre qu’un échantillon illustratif de FrontierMath et ne remplace pas l’évaluation privée complète du raisonnement mathématique de recherche.
Sources des scores : epoch.