Mathématiques

FrontierMath

FrontierMath est un benchmark d’Epoch AI consacré au raisonnement mathématique avancé. Il réunit des problèmes originaux, particulièrement difficiles, conçus et vérifiés par des mathématiciens experts, avec des questions ouvertes dont la réponse est courte ou vérifiable.

Le benchmark sert à évaluer la capacité des modèles d’IA à traiter des problèmes relevant de nombreuses branches des mathématiques modernes, de la théorie des nombres à l’analyse réelle, jusqu’à la géométrie algébrique et la théorie des catégories.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes de mathématiques avancées à réponse courte ou vérifiable
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Licence	propriétaire
Langues	anglais
Taille du jeu	plusieurs centaines de problèmes
Année de publication	2024
Ressources	Site / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.4	OpenAI	47,6 %	5 mars 2026	Auto-déclaré
2	GPT-5.2	OpenAI	40,3 %	11 décembre 2025	Auto-déclaré
3	GPT-5.5 Pro	OpenAI	39,6 %	23 avril 2026	Auto-déclaré
4	GPT-5.5	OpenAI	35,4 %	23 avril 2026	Auto-déclaré
5	GPT-5.1	OpenAI	26,7 %	13 novembre 2025	Auto-déclaré
6	GPT-5.1 Instant	OpenAI	26,7 %	12 novembre 2025	Auto-déclaré
7	GPT-5	OpenAI	26,3 %	7 août 2025	Auto-déclaré
8	GPT-5 mini	OpenAI	22,1 %	7 août 2025	Auto-déclaré
9	o3	OpenAI	15,8 %	16 avril 2025	Auto-déclaré
10	GPT-5 nano	OpenAI	9,6 %	7 août 2025	Auto-déclaré
11	o3-mini	OpenAI	9,2 %	30 janvier 2025	Auto-déclaré
12	MAI-Code-1-Flash	Microsoft	6,3 %	2 juin 2026	Auto-déclaré
13	o1	OpenAI	5,5 %	17 décembre 2024	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 26,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur FrontierMath indique une aptitude à produire des raisonnements mathématiques avancés sur des problèmes non triviaux, au-delà de la simple restitution de connaissances. Le niveau médian observé dans la base, 26 %, et le meilleur résultat, GPT-5.4 (OpenAI) à 48 %, suggèrent un benchmark encore peu saturé parmi les 14 modèles évalués. La prudence reste nécessaire, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, même si le jeu de test privé et les réponses non divulguées renforcent la résistance à la contamination directe. Les limites tiennent aussi à la portée du test : il mesure des mathématiques avancées en anglais, pas l’ensemble des compétences scientifiques, pédagogiques ou de calcul formel. Le classement met surtout en évidence les modèles capables de combiner abstraction, rigueur et résolution de problèmes longs, dans un cadre propriétaire difficile à auditer indépendamment.

Sources des scores : llm-stats.

FrontierMath

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++