AIME 2024
AIME 2024 est un benchmark issu de l’American Invitational Mathematics Examination, organisé par la Mathematical Association of America via les American Mathematics Competitions. Il regroupe des problèmes de raisonnement mathématique exigeants, formulés en anglais, avec des réponses…
AIME 2024 est un benchmark issu de l’American Invitational Mathematics Examination, organisé par la Mathematical Association of America via les American Mathematics Competitions. Il regroupe des problèmes de raisonnement mathématique exigeants, formulés en anglais, avec des réponses courtes sous forme d’entiers.
Dans l’évaluation des grands modèles de langage, AIME 2024 sert à mesurer des capacités proches du niveau olympiade. Il couvre notamment l’algèbre, la géométrie, la combinatoire et la théorie des nombres, avec une notation stricte fondée sur la correspondance exacte de la réponse.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mathematical Association of America (MAA) / American Mathematics Competitions (AMC) |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte, avec réponse entière entre 0 et 999 |
| Métrique d'évaluation | accuracy / exact match |
| Accès | Public |
| Licence | propriétaire |
| Langues | anglais |
| Taille du jeu | 30 questions |
| Année de publication | 2024 |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Grok-3 Mini | xAI | 95,8 % | 17 février 2025 | Auto-déclaré |
| 2 | o4-mini | OpenAI | 93,4 % | 16 avril 2025 | Auto-déclaré |
| 3 | Grok-3 | xAI | 93,3 % | 17 février 2025 | Auto-déclaré |
| 4 | LongCat-Flash-Thinking | Meituan | 93,3 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Gemini 2.5 Pro | 92,0 % | 20 mai 2025 | Auto-déclaré | |
| 6 | o3 | OpenAI | 91,6 % | 16 avril 2025 | Auto-déclaré |
| 7 | DeepSeek-R1-0528 | DeepSeek | 91,4 % | 28 mai 2025 | Auto-déclaré |
| 8 | GLM-4.5 | Zhipu AI | 91,0 % | 28 juillet 2025 | Auto-déclaré |
| 9 | Ministral 3 (14B Reasoning 2512) | Mistral AI | 89,8 % | 4 décembre 2025 | Auto-déclaré |
| 10 | GLM-4.5-Air | Zhipu AI | 89,4 % | 28 juillet 2025 | Auto-déclaré |
| 11 | Gemini 2.5 Flash | 88,0 % | 20 mai 2025 | Auto-déclaré | |
| 12 | o3-mini | OpenAI | 87,3 % | 30 janvier 2025 | Auto-déclaré |
| 13 | DeepSeek R1 Distill Llama 70B | DeepSeek | 86,7 % | 20 janvier 2025 | Auto-déclaré |
| 14 | DeepSeek R1 Zero | DeepSeek | 86,7 % | 20 janvier 2025 | Auto-déclaré |
| 15 | Ministral 3 (8B Reasoning 2512) | Mistral AI | 86,0 % | 4 décembre 2025 | Auto-déclaré |
| 16 | o1-pro | OpenAI | 86,0 % | 17 décembre 2024 | Auto-déclaré |
| 17 | Qwen3 235B A22B | Qwen | 85,7 % | 25 juillet 2025 | Auto-déclaré |
| 18 | MiniCPM-SALA | OpenBMB | 83,8 % | 11 février 2026 | Auto-déclaré |
| 19 | DeepSeek R1 Distill Qwen 32B | DeepSeek | 83,3 % | 20 janvier 2025 | Auto-déclaré |
| 20 | DeepSeek R1 Distill Qwen 7B | DeepSeek | 83,3 % | 20 janvier 2025 | Auto-déclaré |
Classement établi sur 52 modèles évalués, dont 40 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AIME 2024 indique une forte aptitude à résoudre des problèmes mathématiques avancés nécessitant plusieurs étapes de raisonnement, plutôt qu’une simple restitution de connaissances. La métrique par exact match rend l’évaluation stricte, car une réponse entière incorrecte ne reçoit pas de crédit partiel. Dans la base, le score médian atteint 80 % sur 53 modèles évalués, tandis que Grok-3 Mini (xAI) atteint 96 %, ce qui suggère un niveau de performance déjà très élevé parmi les meilleurs systèmes recensés. Cette concentration des scores peut toutefois réduire le pouvoir discriminant du benchmark au sommet du classement. La fiabilité doit aussi être interprétée avec prudence, car les résultats sont majoritairement auto-déclarés par les éditeurs, sans garantie uniforme de protocole indépendant. L’accès public crée en outre un risque de contamination des données d’entraînement. Enfin, AIME 2024 mesure un périmètre précis, le raisonnement mathématique olympiade en anglais, et ne permet pas d’inférer seul des performances générales en programmation, connaissances scientifiques ou tâches multimodales.
Sources des scores : llm-stats.