Mathématiques

AIME 2024

AIME 2024 est un benchmark issu de l’American Invitational Mathematics Examination, organisé par la Mathematical Association of America via les American Mathematics Competitions. Il regroupe des problèmes de raisonnement mathématique exigeants, formulés en anglais, avec des réponses…

Dans l’évaluation des grands modèles de langage, AIME 2024 sert à mesurer des capacités proches du niveau olympiade. Il couvre notamment l’algèbre, la géométrie, la combinatoire et la théorie des nombres, avec une notation stricte fondée sur la correspondance exacte de la réponse.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mathematical Association of America (MAA) / American Mathematics Competitions (AMC)
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte, avec réponse entière entre 0 et 999
Métrique d'évaluation	accuracy / exact match
Accès	Public
Licence	propriétaire
Langues	anglais
Taille du jeu	30 questions
Année de publication	2024

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Grok-3 Mini	xAI	95,8 %	17 février 2025	Auto-déclaré
2	o4-mini	OpenAI	93,4 %	16 avril 2025	Auto-déclaré
3	Grok-3	xAI	93,3 %	17 février 2025	Auto-déclaré
4	LongCat-Flash-Thinking	Meituan	93,3 %	22 septembre 2025	Auto-déclaré
5	Gemini 2.5 Pro	Google	92,0 %	20 mai 2025	Auto-déclaré
6	o3	OpenAI	91,6 %	16 avril 2025	Auto-déclaré
7	DeepSeek-R1-0528	DeepSeek	91,4 %	28 mai 2025	Auto-déclaré
8	GLM-4.5	Zhipu AI	91,0 %	28 juillet 2025	Auto-déclaré
9	Ministral 3 (14B Reasoning 2512)	Mistral AI	89,8 %	4 décembre 2025	Auto-déclaré
10	GLM-4.5-Air	Zhipu AI	89,4 %	28 juillet 2025	Auto-déclaré
11	Gemini 2.5 Flash	Google	88,0 %	20 mai 2025	Auto-déclaré
12	o3-mini	OpenAI	87,3 %	30 janvier 2025	Auto-déclaré
13	DeepSeek R1 Distill Llama 70B	DeepSeek	86,7 %	20 janvier 2025	Auto-déclaré
14	DeepSeek R1 Zero	DeepSeek	86,7 %	20 janvier 2025	Auto-déclaré
15	Ministral 3 (8B Reasoning 2512)	Mistral AI	86,0 %	4 décembre 2025	Auto-déclaré
16	o1-pro	OpenAI	86,0 %	17 décembre 2024	Auto-déclaré
17	Qwen3 235B A22B	Qwen	85,7 %	25 juillet 2025	Auto-déclaré
18	MiniCPM-SALA	OpenBMB	83,8 %	11 février 2026	Auto-déclaré
19	DeepSeek R1 Distill Qwen 32B	DeepSeek	83,3 %	20 janvier 2025	Auto-déclaré
20	DeepSeek R1 Distill Qwen 7B	DeepSeek	83,3 %	20 janvier 2025	Auto-déclaré

Classement établi sur 52 modèles évalués, dont 40 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AIME 2024 indique une forte aptitude à résoudre des problèmes mathématiques avancés nécessitant plusieurs étapes de raisonnement, plutôt qu’une simple restitution de connaissances. La métrique par exact match rend l’évaluation stricte, car une réponse entière incorrecte ne reçoit pas de crédit partiel. Dans la base, le score médian atteint 80 % sur 53 modèles évalués, tandis que Grok-3 Mini (xAI) atteint 96 %, ce qui suggère un niveau de performance déjà très élevé parmi les meilleurs systèmes recensés. Cette concentration des scores peut toutefois réduire le pouvoir discriminant du benchmark au sommet du classement. La fiabilité doit aussi être interprétée avec prudence, car les résultats sont majoritairement auto-déclarés par les éditeurs, sans garantie uniforme de protocole indépendant. L’accès public crée en outre un risque de contamination des données d’entraînement. Enfin, AIME 2024 mesure un périmètre précis, le raisonnement mathématique olympiade en anglais, et ne permet pas d’inférer seul des performances générales en programmation, connaissances scientifiques ou tâches multimodales.

Sources des scores : llm-stats.

AIME 2024

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench