AIME 2026
AIME 2026 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend des problèmes de mathématiques de niveau olympiade et sert à mesurer la capacité des modèles d’IA à produire une réponse courte exacte après un…
AIME 2026 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend des problèmes de mathématiques de niveau olympiade et sert à mesurer la capacité des modèles d’IA à produire une réponse courte exacte après un raisonnement structuré.
Son intérêt tient à la combinaison de déductions logiques, de résolution multi-étapes et de calcul symbolique. Dans une modelothèque, il permet de comparer les modèles sur des tâches mathématiques exigeantes, où la justesse finale dépend autant du raisonnement que de la précision du calcul.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mathematical Association of America (MAA) |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte, avec réponse entière de 000 à 999 |
| Métrique d'évaluation | accuracy / exact match |
| Accès | Public |
| Licence | propriétaire |
| Langues | anglais |
| Taille du jeu | 30 problèmes |
| Année de publication | 2026 |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 17)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GLM-5.2 | Zhipu AI | 99,2 % | 16 juin 2026 | Auto-déclaré |
| 2 | Kimi K2.6 | Moonshot AI | 96,4 % | 20 avril 2026 | Auto-déclaré |
| 3 | GLM-5.1 | Zhipu AI | 95,3 % | 7 avril 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 95,3 % | 31 mars 2026 | Auto-déclaré |
| 5 | MAI-Thinking-1 | Microsoft | 94,5 % | 2 juin 2026 | Auto-déclaré |
| 6 | Seed 2.0 Pro | bytedance | 94,2 % | 14 février 2026 | Auto-déclaré |
| 7 | Qwen3.6-27B | Qwen | 94,1 % | 21 avril 2026 | Auto-déclaré |
| 8 | Qwen3.6-35B-A3B | Qwen | 92,7 % | 16 avril 2026 | Auto-déclaré |
| 9 | MAI-Code-1-Flash | Microsoft | 92,5 % | 2 juin 2026 | Auto-déclaré |
| 10 | Qwen3.5-397B-A17B | Qwen | 91,3 % | 16 février 2026 | Auto-déclaré |
| 11 | Gemma 4 31B | 89,2 % | 2 avril 2026 | Auto-déclaré | |
| 12 | Gemma 4 26B-A4B | 88,3 % | 2 avril 2026 | Auto-déclaré | |
| 13 | Seed 2.0 Lite | bytedance | 88,3 % | 14 février 2026 | Auto-déclaré |
| 14 | Gemma 4 12B | 77,5 % | 23 mai 2026 | Auto-déclaré | |
| 15 | DiffusionGemma 26B-A4B | 69,1 % | 10 juin 2026 | Auto-déclaré | |
| 16 | Gemma 4 E4B | 42,5 % | 2 avril 2026 | Auto-déclaré | |
| 17 | Gemma 4 E2B | 37,5 % | 2 avril 2026 | Auto-déclaré |
Classement établi sur 17 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 92,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AIME 2026 indique une forte capacité à résoudre des problèmes mathématiques complexes dont la réponse attendue est un entier précis. La métrique d’exact match rend l’évaluation stricte, car une solution partiellement correcte ne suffit pas si la réponse finale ne correspond pas exactement. Le score médian très élevé observé dans la base suggère toutefois une possible saturation du benchmark pour les meilleurs modèles, le premier du classement, GLM-5.2, atteignant presque le score maximal. La lecture du classement doit aussi tenir compte de la fiabilité des données, majoritairement auto-déclarées par les éditeurs, ce qui limite la comparabilité avec des mesures indépendantes et reproductibles. Le format public peut également exposer le jeu à des risques de contamination dans les données d’entraînement ou d’évaluation. AIME 2026 reste donc un signal utile sur le raisonnement mathématique avancé, mais sa portée demeure spécialisée et ne suffit pas à caractériser les performances générales d’un modèle.
Sources des scores : llm-stats.