Mathématiques

AIME 2025

AIME 2025 est un benchmark issu de l’American Invitational Mathematics Examination, conçu par la Mathematical Association of America. Il reprend les problèmes de l’édition 2025 de l’AIME I et de l’AIME II, un format centré sur des questions ouvertes à réponse courte.

Dans l’évaluation des modèles d’IA, AIME 2025 sert à mesurer la capacité à résoudre des problèmes mathématiques de niveau olympiade. Il met l’accent sur le raisonnement multi-étapes, les déductions logiques et la manipulation symbolique structurée, avec une correction stricte par exact match.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mathematical Association of America (MAA)
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte, avec réponse entière de 000 à 999
Métrique d'évaluation	exact match / accuracy
Accès	Public
Licence	propriétaire
Langues	anglais
Taille du jeu	30 problèmes
Année de publication	2025

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.2	OpenAI	100,0 %	11 décembre 2025	Auto-déclaré
2	GPT-5.2 Pro	OpenAI	100,0 %	11 décembre 2025	Auto-déclaré
3	Gemini 3 Pro	Google	100,0 %	18 novembre 2025	Auto-déclaré
4	Grok-4 Heavy	xAI	100,0 %	10 juillet 2025	Auto-déclaré
5	Kimi K2 0905	Moonshot AI	100,0 %	5 septembre 2025	Auto-déclaré
6	Claude Opus 4.6	Anthropic	99,8 %	7 avril 2026	Auto-déclaré
7	Gemini 3 Flash	Google	99,7 %	17 décembre 2025	Auto-déclaré
8	LongCat-Flash-Thinking-2601	Meituan	99,6 %	14 janvier 2026	Auto-déclaré
9	Nemotron 3 Nano (30B A3B)	NVIDIA	99,2 %	15 décembre 2025	Auto-déclaré
10	GPT OSS 20B	OpenAI	98,7 %	5 août 2025	Auto-déclaré
11	Seed 2.0 Pro	bytedance	98,3 %	14 février 2026	Auto-déclaré
12	Step-3.5-Flash	StepFun	97,3 %	2 février 2026	Auto-déclaré
13	MAI-Thinking-1	Microsoft	97,0 %	2 juin 2026	Auto-déclaré
14	GPT-5.1 Codex	OpenAI	96,7 %	19 novembre 2025	Auto-déclaré
15	Sarvam-105B	sarvamai	96,7 %	6 mars 2026	Auto-déclaré
16	Sarvam-30B	sarvamai	96,7 %	6 mars 2026	Auto-déclaré
17	Kimi K2.5	Moonshot AI	96,1 %	27 janvier 2026	Auto-déclaré
18	DeepSeek-V3.2-Speciale	DeepSeek	96,0 %	1 décembre 2025	Auto-déclaré
19	GLM-4.7	Zhipu AI	95,7 %	22 décembre 2025	Auto-déclaré
20	GPT-5	OpenAI	94,6 %	7 août 2025	Auto-déclaré

Classement établi sur 108 modèles évalués, dont 82 de grands éditeurs. Score médian de l'ensemble : 85,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AIME 2025 indique une forte capacité à produire directement la bonne réponse entière à des problèmes mathématiques complexes, sans bénéficier d’un barème partiel. La métrique exact match rend l’évaluation exigeante, car une solution presque correcte reste comptée comme incorrecte. Le classement de la base montre un niveau global élevé, avec une médiane à 87 % sur 114 modèles évalués et un meilleur score à 100 % pour GPT-5.2 (OpenAI). Cette concentration de performances élevées suggère aussi un risque de saturation du benchmark pour les modèles les plus avancés.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité lorsqu’ils ne sont pas mesurés dans un protocole indépendant et homogène. Le faible nombre de problèmes rend chaque item important dans le score final. La portée est également spécialisée, AIME 2025 évalue surtout le raisonnement mathématique olympiade en anglais, sans couvrir d’autres compétences générales ni des usages applicatifs plus larges.

Sources des scores : llm-stats.

AIME 2025

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench