AIME 2026

AIME 2026 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend des problèmes de mathématiques de niveau olympiade et sert à mesurer la capacité des modèles d’IA à produire une réponse courte exacte après un…

AIME 2026 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend des problèmes de mathématiques de niveau olympiade et sert à mesurer la capacité des modèles d’IA à produire une réponse courte exacte après un raisonnement structuré.

Son intérêt tient à la combinaison de déductions logiques, de résolution multi-étapes et de calcul symbolique. Dans une modelothèque, il permet de comparer les modèles sur des tâches mathématiques exigeantes, où la justesse finale dépend autant du raisonnement que de la précision du calcul.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMathematical Association of America (MAA)
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte, avec réponse entière de 000 à 999
Métrique d'évaluationaccuracy / exact match
AccèsPublic
Licencepropriétaire
Languesanglais
Taille du jeu30 problèmes
Année de publication2026

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 17)

#ModèleÉditeurScoreSortieFiabilité
1GLM-5.2Zhipu AI99,2 %16 juin 2026Auto-déclaré
2Kimi K2.6Moonshot AI96,4 %20 avril 2026Auto-déclaré
3GLM-5.1Zhipu AI95,3 %7 avril 2026Auto-déclaré
4Qwen3.6 PlusQwen95,3 %31 mars 2026Auto-déclaré
5MAI-Thinking-1Microsoft94,5 %2 juin 2026Auto-déclaré
6Seed 2.0 Probytedance94,2 %14 février 2026Auto-déclaré
7Qwen3.6-27BQwen94,1 %21 avril 2026Auto-déclaré
8Qwen3.6-35B-A3BQwen92,7 %16 avril 2026Auto-déclaré
9MAI-Code-1-FlashMicrosoft92,5 %2 juin 2026Auto-déclaré
10Qwen3.5-397B-A17BQwen91,3 %16 février 2026Auto-déclaré
11Gemma 4 31BGoogle89,2 %2 avril 2026Auto-déclaré
12Gemma 4 26B-A4BGoogle88,3 %2 avril 2026Auto-déclaré
13Seed 2.0 Litebytedance88,3 %14 février 2026Auto-déclaré
14Gemma 4 12BGoogle77,5 %23 mai 2026Auto-déclaré
15DiffusionGemma 26B-A4BGoogle69,1 %10 juin 2026Auto-déclaré
16Gemma 4 E4BGoogle42,5 %2 avril 2026Auto-déclaré
17Gemma 4 E2BGoogle37,5 %2 avril 2026Auto-déclaré

Classement établi sur 17 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 92,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AIME 2026 indique une forte capacité à résoudre des problèmes mathématiques complexes dont la réponse attendue est un entier précis. La métrique d’exact match rend l’évaluation stricte, car une solution partiellement correcte ne suffit pas si la réponse finale ne correspond pas exactement. Le score médian très élevé observé dans la base suggère toutefois une possible saturation du benchmark pour les meilleurs modèles, le premier du classement, GLM-5.2, atteignant presque le score maximal. La lecture du classement doit aussi tenir compte de la fiabilité des données, majoritairement auto-déclarées par les éditeurs, ce qui limite la comparabilité avec des mesures indépendantes et reproductibles. Le format public peut également exposer le jeu à des risques de contamination dans les données d’entraînement ou d’évaluation. AIME 2026 reste donc un signal utile sur le raisonnement mathématique avancé, mais sa portée demeure spécialisée et ne suffit pas à caractériser les performances générales d’un modèle.


Sources des scores : llm-stats.