AIME 2025

AIME 2025 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend les problèmes de l’édition 2025 de l’AIME I et de l’AIME II, un format centré sur des questions ouvertes à réponse courte.

AIME 2025 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend les problèmes de l’édition 2025 de l’AIME I et de l’AIME II, un format centré sur des questions ouvertes à réponse courte.

Dans l’évaluation des modèles d’IA, AIME 2025 sert à mesurer la capacité à résoudre des problèmes mathématiques de niveau olympiade. Il met l’accent sur le raisonnement multi-étapes, les déductions logiques et la manipulation symbolique structurée, avec une correction stricte par exact match.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMathematical Association of America (MAA)
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte, avec réponse entière de 000 à 999
Métrique d'évaluationexact match / accuracy
AccèsPublic
Licencepropriétaire
Languesanglais
Taille du jeu30 problèmes
Année de publication2025

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.2OpenAI100,0 %11 décembre 2025Auto-déclaré
2GPT-5.2 ProOpenAI100,0 %11 décembre 2025Auto-déclaré
3Gemini 3 ProGoogle100,0 %18 novembre 2025Auto-déclaré
4Grok-4 HeavyxAI100,0 %10 juillet 2025Auto-déclaré
5Kimi K2 0905Moonshot AI100,0 %5 septembre 2025Auto-déclaré
6Claude Opus 4.6Anthropic99,8 %7 avril 2026Auto-déclaré
7Gemini 3 FlashGoogle99,7 %17 décembre 2025Auto-déclaré
8LongCat-Flash-Thinking-2601Meituan99,6 %14 janvier 2026Auto-déclaré
9Nemotron 3 Nano (30B A3B)NVIDIA99,2 %15 décembre 2025Auto-déclaré
10GPT OSS 20BOpenAI98,7 %5 août 2025Auto-déclaré
11Seed 2.0 Probytedance98,3 %14 février 2026Auto-déclaré
12Step-3.5-FlashStepFun97,3 %2 février 2026Auto-déclaré
13MAI-Thinking-1Microsoft97,0 %2 juin 2026Auto-déclaré
14GPT-5.1 CodexOpenAI96,7 %19 novembre 2025Auto-déclaré
15Sarvam-105Bsarvamai96,7 %6 mars 2026Auto-déclaré
16Sarvam-30Bsarvamai96,7 %6 mars 2026Auto-déclaré
17Kimi K2.5Moonshot AI96,1 %27 janvier 2026Auto-déclaré
18DeepSeek-V3.2-SpecialeDeepSeek96,0 %1 décembre 2025Auto-déclaré
19GLM-4.7Zhipu AI95,7 %22 décembre 2025Auto-déclaré
20GPT-5OpenAI94,6 %7 août 2025Auto-déclaré

Classement établi sur 108 modèles évalués, dont 82 de grands éditeurs. Score médian de l'ensemble : 85,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AIME 2025 indique une forte capacité à produire directement la bonne réponse entière à des problèmes mathématiques complexes, sans bénéficier d’un barème partiel. La métrique exact match rend l’évaluation exigeante, car une solution presque correcte reste comptée comme incorrecte. Le classement de la base montre un niveau global élevé, avec une médiane à 87 % sur 114 modèles évalués et un meilleur score à 100 % pour GPT-5.2 (OpenAI). Cette concentration de performances élevées suggère aussi un risque de saturation du benchmark pour les modèles les plus avancés.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité lorsqu’ils ne sont pas mesurés dans un protocole indépendant et homogène. Le faible nombre de problèmes rend chaque item important dans le score final. La portée est également spécialisée, AIME 2025 évalue surtout le raisonnement mathématique olympiade en anglais, sans couvrir d’autres compétences générales ni des usages applicatifs plus larges.


Sources des scores : llm-stats.