FrontierMath
FrontierMath est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il réunit des problèmes originaux, particulièrement difficiles, conçus et vérifiés par des mathématiciens experts, avec des questions ouvertes dont la réponse est courte ou vérifiable.
FrontierMath est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il réunit des problèmes originaux, particulièrement difficiles, conçus et vérifiés par des mathématiciens experts, avec des questions ouvertes dont la réponse est courte ou vérifiable.
Le benchmark sert à évaluer la capacité des modèles d’IA à traiter des problèmes relevant de nombreuses branches des mathématiques modernes, de la théorie des nombres à l’analyse réelle, jusqu’à la géométrie algébrique et la théorie des catégories.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes de mathématiques avancées à réponse courte ou vérifiable |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | propriétaire |
| Langues | anglais |
| Taille du jeu | plusieurs centaines de problèmes |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.4 | OpenAI | 47,6 % | 5 mars 2026 | Auto-déclaré |
| 2 | GPT-5.2 | OpenAI | 40,3 % | 11 décembre 2025 | Auto-déclaré |
| 3 | GPT-5.5 Pro | OpenAI | 39,6 % | 23 avril 2026 | Auto-déclaré |
| 4 | GPT-5.5 | OpenAI | 35,4 % | 23 avril 2026 | Auto-déclaré |
| 5 | GPT-5.1 | OpenAI | 26,7 % | 13 novembre 2025 | Auto-déclaré |
| 6 | GPT-5.1 Instant | OpenAI | 26,7 % | 12 novembre 2025 | Auto-déclaré |
| 7 | GPT-5 | OpenAI | 26,3 % | 7 août 2025 | Auto-déclaré |
| 8 | GPT-5 mini | OpenAI | 22,1 % | 7 août 2025 | Auto-déclaré |
| 9 | o3 | OpenAI | 15,8 % | 16 avril 2025 | Auto-déclaré |
| 10 | GPT-5 nano | OpenAI | 9,6 % | 7 août 2025 | Auto-déclaré |
| 11 | o3-mini | OpenAI | 9,2 % | 30 janvier 2025 | Auto-déclaré |
| 12 | MAI-Code-1-Flash | Microsoft | 6,3 % | 2 juin 2026 | Auto-déclaré |
| 13 | o1 | OpenAI | 5,5 % | 17 décembre 2024 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 26,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur FrontierMath indique une aptitude à produire des raisonnements mathématiques avancés sur des problèmes non triviaux, au-delà de la simple restitution de connaissances. Le niveau médian observé dans la base, 26 %, et le meilleur résultat, GPT-5.4 (OpenAI) à 48 %, suggèrent un benchmark encore peu saturé parmi les 14 modèles évalués. La prudence reste nécessaire, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, même si le jeu de test privé et les réponses non divulguées renforcent la résistance à la contamination directe. Les limites tiennent aussi à la portée du test : il mesure des mathématiques avancées en anglais, pas l’ensemble des compétences scientifiques, pédagogiques ou de calcul formel. Le classement met surtout en évidence les modèles capables de combiner abstraction, rigueur et résolution de problèmes longs, dans un cadre propriétaire difficile à auditer indépendamment.
Sources des scores : llm-stats.