AIME 2024

AIME 2024 est un benchmark issu de l’American Invitational Mathematics Examination, organisé par la Mathematical Association of America via les American Mathematics Competitions. Il regroupe des problèmes de raisonnement mathématique exigeants, formulés en anglais, avec des réponses…

AIME 2024 est un benchmark issu de l’American Invitational Mathematics Examination, organisé par la Mathematical Association of America via les American Mathematics Competitions. Il regroupe des problèmes de raisonnement mathématique exigeants, formulés en anglais, avec des réponses courtes sous forme d’entiers.

Dans l’évaluation des grands modèles de langage, AIME 2024 sert à mesurer des capacités proches du niveau olympiade. Il couvre notamment l’algèbre, la géométrie, la combinatoire et la théorie des nombres, avec une notation stricte fondée sur la correspondance exacte de la réponse.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMathematical Association of America (MAA) / American Mathematics Competitions (AMC)
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte, avec réponse entière entre 0 et 999
Métrique d'évaluationaccuracy / exact match
AccèsPublic
Licencepropriétaire
Languesanglais
Taille du jeu30 questions
Année de publication2024

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Grok-3 MinixAI95,8 %17 février 2025Auto-déclaré
2o4-miniOpenAI93,4 %16 avril 2025Auto-déclaré
3Grok-3xAI93,3 %17 février 2025Auto-déclaré
4LongCat-Flash-ThinkingMeituan93,3 %22 septembre 2025Auto-déclaré
5Gemini 2.5 ProGoogle92,0 %20 mai 2025Auto-déclaré
6o3OpenAI91,6 %16 avril 2025Auto-déclaré
7DeepSeek-R1-0528DeepSeek91,4 %28 mai 2025Auto-déclaré
8GLM-4.5Zhipu AI91,0 %28 juillet 2025Auto-déclaré
9Ministral 3 (14B Reasoning 2512)Mistral AI89,8 %4 décembre 2025Auto-déclaré
10GLM-4.5-AirZhipu AI89,4 %28 juillet 2025Auto-déclaré
11Gemini 2.5 FlashGoogle88,0 %20 mai 2025Auto-déclaré
12o3-miniOpenAI87,3 %30 janvier 2025Auto-déclaré
13DeepSeek R1 Distill Llama 70BDeepSeek86,7 %20 janvier 2025Auto-déclaré
14DeepSeek R1 ZeroDeepSeek86,7 %20 janvier 2025Auto-déclaré
15Ministral 3 (8B Reasoning 2512)Mistral AI86,0 %4 décembre 2025Auto-déclaré
16o1-proOpenAI86,0 %17 décembre 2024Auto-déclaré
17Qwen3 235B A22BQwen85,7 %25 juillet 2025Auto-déclaré
18MiniCPM-SALAOpenBMB83,8 %11 février 2026Auto-déclaré
19DeepSeek R1 Distill Qwen 32BDeepSeek83,3 %20 janvier 2025Auto-déclaré
20DeepSeek R1 Distill Qwen 7BDeepSeek83,3 %20 janvier 2025Auto-déclaré

Classement établi sur 52 modèles évalués, dont 40 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AIME 2024 indique une forte aptitude à résoudre des problèmes mathématiques avancés nécessitant plusieurs étapes de raisonnement, plutôt qu’une simple restitution de connaissances. La métrique par exact match rend l’évaluation stricte, car une réponse entière incorrecte ne reçoit pas de crédit partiel. Dans la base, le score médian atteint 80 % sur 53 modèles évalués, tandis que Grok-3 Mini (xAI) atteint 96 %, ce qui suggère un niveau de performance déjà très élevé parmi les meilleurs systèmes recensés. Cette concentration des scores peut toutefois réduire le pouvoir discriminant du benchmark au sommet du classement. La fiabilité doit aussi être interprétée avec prudence, car les résultats sont majoritairement auto-déclarés par les éditeurs, sans garantie uniforme de protocole indépendant. L’accès public crée en outre un risque de contamination des données d’entraînement. Enfin, AIME 2024 mesure un périmètre précis, le raisonnement mathématique olympiade en anglais, et ne permet pas d’inférer seul des performances générales en programmation, connaissances scientifiques ou tâches multimodales.


Sources des scores : llm-stats.