Autres benchmarks

OTIS Mock AIME 2024-2025

Epoch: OTIS Mock AIME 2024-2025 est un benchmark public compilé par Epoch AI pour évaluer la résolution de problèmes mathématiques de compétition. Il rassemble des exercices de style AIME, avec des réponses entières, et se situe sur un niveau intermédiaire à avancé.

Ce test sert à mesurer la capacité des modèles à mener un raisonnement mathématique exact sur des problèmes courts mais exigeants. Il complète les évaluations généralistes en ciblant une compétence précise, plus difficile que MATH niveau 5, mais moins extrême que FrontierMath.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Epoch AI
Capacités mesurées	Resolution de problemes mathematiques de niveau competition (style AIME), intermediaire a avance
Modalité	Texte
Type de questions	Problemes mathematiques a reponse entiere (entiers de 0 a 999)
Métrique d'évaluation	Exactitude (accuracy)
Accès	Public
Langues	anglais
Taille du jeu	45 problemes (15 Mock AIME 2024, 15 Mock AIME 2025 I, 15 Mock AIME 2025 II)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5	OpenAI	100,0 %	23 avril 2026	✅ Mesuré
2	GPT-5.5 Pro	OpenAI	100,0 %	23 avril 2026	✅ Mesuré
3	Claude Fable 5	Anthropic	99,7 %	9 juin 2026	✅ Mesuré
4	Claude Opus 4.8	Anthropic	98,3 %	28 mai 2026	✅ Mesuré
5	Claude Opus 4.7	Anthropic	97,8 %	12 mai 2026	✅ Mesuré
6	DeepSeek V4 Pro	DeepSeek	96,7 %	24 avril 2026	✅ Mesuré
7	Kimi K2.7 Code	Moonshot AI	96,4 %	12 juin 2026	✅ Mesuré
8	GPT-5.2	OpenAI	96,1 %	11 décembre 2025	✅ Mesuré
9	Kimi K2.6	Moonshot AI	96,1 %	20 avril 2026	✅ Mesuré
10	Gemini 3.1 Pro Preview	Google	95,6 %	19 février 2026	✅ Mesuré
11	Gemini 3.5 Flash	Google	95,6 %	19 mai 2026	✅ Mesuré
12	GPT-5.4	OpenAI	95,3 %	5 mars 2026	✅ Mesuré
13	Qwen3.7 Max	Qwen	95,0 %	19 mai 2026	✅ Mesuré
14	Claude Opus 4.6	Anthropic	94,4 %	7 avril 2026	✅ Mesuré
15	Grok 4.3 Beta	xAI	93,3 %	17 avril 2026	✅ Mesuré
16	Gemini 3 Flash	Google	92,8 %	17 décembre 2025	✅ Mesuré
17	GLM-5.1	Zhipu AI	92,2 %	7 avril 2026	✅ Mesuré
18	Kimi K2.5	Moonshot AI	92,2 %	27 janvier 2026	✅ Mesuré
19	GPT-5	OpenAI	91,4 %	7 août 2025	✅ Mesuré
20	Gemini 3 Pro	Google	91,4 %	18 novembre 2025	✅ Mesuré

Classement établi sur 111 modèles évalués, dont 100 de grands éditeurs. Score médian de l'ensemble : 64,4 %.

Notre analyse

Un score élevé sur Epoch: OTIS Mock AIME 2024-2025 indique une forte aptitude à résoudre des problèmes mathématiques de compétition dont la réponse doit être exacte. Comme la métrique repose sur l’accuracy, le classement valorise directement la justesse finale, sans mesurer séparément la qualité du raisonnement intermédiaire. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs de modèles.

Le meilleur résultat recensé atteint 100% avec GPT-5.5 (OpenAI), tandis que la médiane de l’ensemble des 111 modèles évalués est de 64%. Cet écart suggère un benchmark encore discriminant pour une partie importante des modèles, même si le score parfait du leader signale un risque de saturation au sommet. Les limites tiennent aussi à la taille restreinte du jeu, à la langue anglaise, au format unique de réponses entières et au risque général de contamination lorsque des problèmes publics circulent dans les données d’entraînement.

Sources des scores : epoch.

OTIS Mock AIME 2024-2025

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench