AIME 2025
AIME 2025 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend les problèmes de l’édition 2025 de l’AIME I et de l’AIME II, un format centré sur des questions ouvertes à réponse courte.
AIME 2025 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend les problèmes de l’édition 2025 de l’AIME I et de l’AIME II, un format centré sur des questions ouvertes à réponse courte.
Dans l’évaluation des modèles d’IA, AIME 2025 sert à mesurer la capacité à résoudre des problèmes mathématiques de niveau olympiade. Il met l’accent sur le raisonnement multi-étapes, les déductions logiques et la manipulation symbolique structurée, avec une correction stricte par exact match.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mathematical Association of America (MAA) |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte, avec réponse entière de 000 à 999 |
| Métrique d'évaluation | exact match / accuracy |
| Accès | Public |
| Licence | propriétaire |
| Langues | anglais |
| Taille du jeu | 30 problèmes |
| Année de publication | 2025 |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.2 | OpenAI | 100,0 % | 11 décembre 2025 | Auto-déclaré |
| 2 | GPT-5.2 Pro | OpenAI | 100,0 % | 11 décembre 2025 | Auto-déclaré |
| 3 | Gemini 3 Pro | 100,0 % | 18 novembre 2025 | Auto-déclaré | |
| 4 | Grok-4 Heavy | xAI | 100,0 % | 10 juillet 2025 | Auto-déclaré |
| 5 | Kimi K2 0905 | Moonshot AI | 100,0 % | 5 septembre 2025 | Auto-déclaré |
| 6 | Claude Opus 4.6 | Anthropic | 99,8 % | 7 avril 2026 | Auto-déclaré |
| 7 | Gemini 3 Flash | 99,7 % | 17 décembre 2025 | Auto-déclaré | |
| 8 | LongCat-Flash-Thinking-2601 | Meituan | 99,6 % | 14 janvier 2026 | Auto-déclaré |
| 9 | Nemotron 3 Nano (30B A3B) | NVIDIA | 99,2 % | 15 décembre 2025 | Auto-déclaré |
| 10 | GPT OSS 20B | OpenAI | 98,7 % | 5 août 2025 | Auto-déclaré |
| 11 | Seed 2.0 Pro | bytedance | 98,3 % | 14 février 2026 | Auto-déclaré |
| 12 | Step-3.5-Flash | StepFun | 97,3 % | 2 février 2026 | Auto-déclaré |
| 13 | MAI-Thinking-1 | Microsoft | 97,0 % | 2 juin 2026 | Auto-déclaré |
| 14 | GPT-5.1 Codex | OpenAI | 96,7 % | 19 novembre 2025 | Auto-déclaré |
| 15 | Sarvam-105B | sarvamai | 96,7 % | 6 mars 2026 | Auto-déclaré |
| 16 | Sarvam-30B | sarvamai | 96,7 % | 6 mars 2026 | Auto-déclaré |
| 17 | Kimi K2.5 | Moonshot AI | 96,1 % | 27 janvier 2026 | Auto-déclaré |
| 18 | DeepSeek-V3.2-Speciale | DeepSeek | 96,0 % | 1 décembre 2025 | Auto-déclaré |
| 19 | GLM-4.7 | Zhipu AI | 95,7 % | 22 décembre 2025 | Auto-déclaré |
| 20 | GPT-5 | OpenAI | 94,6 % | 7 août 2025 | Auto-déclaré |
Classement établi sur 108 modèles évalués, dont 82 de grands éditeurs. Score médian de l'ensemble : 85,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AIME 2025 indique une forte capacité à produire directement la bonne réponse entière à des problèmes mathématiques complexes, sans bénéficier d’un barème partiel. La métrique exact match rend l’évaluation exigeante, car une solution presque correcte reste comptée comme incorrecte. Le classement de la base montre un niveau global élevé, avec une médiane à 87 % sur 114 modèles évalués et un meilleur score à 100 % pour GPT-5.2 (OpenAI). Cette concentration de performances élevées suggère aussi un risque de saturation du benchmark pour les modèles les plus avancés.
La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité lorsqu’ils ne sont pas mesurés dans un protocole indépendant et homogène. Le faible nombre de problèmes rend chaque item important dans le score final. La portée est également spécialisée, AIME 2025 évalue surtout le raisonnement mathématique olympiade en anglais, sans couvrir d’autres compétences générales ni des usages applicatifs plus larges.
Sources des scores : llm-stats.