FrontierMath

FrontierMath est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il réunit des problèmes originaux, particulièrement difficiles, conçus et vérifiés par des mathématiciens experts, avec des questions ouvertes dont la réponse est courte ou vérifiable.

FrontierMath est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il réunit des problèmes originaux, particulièrement difficiles, conçus et vérifiés par des mathématiciens experts, avec des questions ouvertes dont la réponse est courte ou vérifiable.

Le benchmark sert à évaluer la capacité des modèles d’IA à traiter des problèmes relevant de nombreuses branches des mathématiques modernes, de la théorie des nombres à l’analyse réelle, jusqu’à la géométrie algébrique et la théorie des catégories.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes de mathématiques avancées à réponse courte ou vérifiable
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
Licencepropriétaire
Languesanglais
Taille du jeuplusieurs centaines de problèmes
Année de publication2024
RessourcesSite / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.4OpenAI47,6 %5 mars 2026Auto-déclaré
2GPT-5.2OpenAI40,3 %11 décembre 2025Auto-déclaré
3GPT-5.5 ProOpenAI39,6 %23 avril 2026Auto-déclaré
4GPT-5.5OpenAI35,4 %23 avril 2026Auto-déclaré
5GPT-5.1OpenAI26,7 %13 novembre 2025Auto-déclaré
6GPT-5.1 InstantOpenAI26,7 %12 novembre 2025Auto-déclaré
7GPT-5OpenAI26,3 %7 août 2025Auto-déclaré
8GPT-5 miniOpenAI22,1 %7 août 2025Auto-déclaré
9o3OpenAI15,8 %16 avril 2025Auto-déclaré
10GPT-5 nanoOpenAI9,6 %7 août 2025Auto-déclaré
11o3-miniOpenAI9,2 %30 janvier 2025Auto-déclaré
12MAI-Code-1-FlashMicrosoft6,3 %2 juin 2026Auto-déclaré
13o1OpenAI5,5 %17 décembre 2024Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 26,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur FrontierMath indique une aptitude à produire des raisonnements mathématiques avancés sur des problèmes non triviaux, au-delà de la simple restitution de connaissances. Le niveau médian observé dans la base, 26 %, et le meilleur résultat, GPT-5.4 (OpenAI) à 48 %, suggèrent un benchmark encore peu saturé parmi les 14 modèles évalués. La prudence reste nécessaire, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, même si le jeu de test privé et les réponses non divulguées renforcent la résistance à la contamination directe. Les limites tiennent aussi à la portée du test : il mesure des mathématiques avancées en anglais, pas l’ensemble des compétences scientifiques, pédagogiques ou de calcul formel. Le classement met surtout en évidence les modèles capables de combiner abstraction, rigueur et résolution de problèmes longs, dans un cadre propriétaire difficile à auditer indépendamment.


Sources des scores : llm-stats.