Mathématiques

AIME 2026

AIME 2026 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend des problèmes de mathématiques de niveau olympiade et sert à mesurer la capacité des modèles d’IA à produire une réponse courte exacte après un…

Son intérêt tient à la combinaison de déductions logiques, de résolution multi-étapes et de calcul symbolique. Dans une modelothèque, il permet de comparer les modèles sur des tâches mathématiques exigeantes, où la justesse finale dépend autant du raisonnement que de la précision du calcul.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mathematical Association of America (MAA)
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte, avec réponse entière de 000 à 999
Métrique d'évaluation	accuracy / exact match
Accès	Public
Licence	propriétaire
Langues	anglais
Taille du jeu	30 problèmes
Année de publication	2026

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 17)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GLM-5.2	Zhipu AI	99,2 %	16 juin 2026	Auto-déclaré
2	Kimi K2.6	Moonshot AI	96,4 %	20 avril 2026	Auto-déclaré
3	GLM-5.1	Zhipu AI	95,3 %	7 avril 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	95,3 %	31 mars 2026	Auto-déclaré
5	MAI-Thinking-1	Microsoft	94,5 %	2 juin 2026	Auto-déclaré
6	Seed 2.0 Pro	bytedance	94,2 %	14 février 2026	Auto-déclaré
7	Qwen3.6-27B	Qwen	94,1 %	21 avril 2026	Auto-déclaré
8	Qwen3.6-35B-A3B	Qwen	92,7 %	16 avril 2026	Auto-déclaré
9	MAI-Code-1-Flash	Microsoft	92,5 %	2 juin 2026	Auto-déclaré
10	Qwen3.5-397B-A17B	Qwen	91,3 %	16 février 2026	Auto-déclaré
11	Gemma 4 31B	Google	89,2 %	2 avril 2026	Auto-déclaré
12	Gemma 4 26B-A4B	Google	88,3 %	2 avril 2026	Auto-déclaré
13	Seed 2.0 Lite	bytedance	88,3 %	14 février 2026	Auto-déclaré
14	Gemma 4 12B	Google	77,5 %	23 mai 2026	Auto-déclaré
15	DiffusionGemma 26B-A4B	Google	69,1 %	10 juin 2026	Auto-déclaré
16	Gemma 4 E4B	Google	42,5 %	2 avril 2026	Auto-déclaré
17	Gemma 4 E2B	Google	37,5 %	2 avril 2026	Auto-déclaré

Classement établi sur 17 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 92,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AIME 2026 indique une forte capacité à résoudre des problèmes mathématiques complexes dont la réponse attendue est un entier précis. La métrique d’exact match rend l’évaluation stricte, car une solution partiellement correcte ne suffit pas si la réponse finale ne correspond pas exactement. Le score médian très élevé observé dans la base suggère toutefois une possible saturation du benchmark pour les meilleurs modèles, le premier du classement, GLM-5.2, atteignant presque le score maximal. La lecture du classement doit aussi tenir compte de la fiabilité des données, majoritairement auto-déclarées par les éditeurs, ce qui limite la comparabilité avec des mesures indépendantes et reproductibles. Le format public peut également exposer le jeu à des risques de contamination dans les données d’entraînement ou d’évaluation. AIME 2026 reste donc un signal utile sur le raisonnement mathématique avancé, mais sa portée demeure spécialisée et ne suffit pas à caractériser les performances générales d’un modèle.

Sources des scores : llm-stats.

AIME 2026

Carte d'identité

Classement des modèles (top 17)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench