OTIS Mock AIME 2024-2025

Epoch: OTIS Mock AIME 2024-2025 est un benchmark public compilé par Epoch AI pour évaluer la résolution de problèmes mathématiques de compétition. Il rassemble des exercices de style AIME, avec des réponses entières, et se situe sur un niveau intermédiaire à avancé.

Epoch: OTIS Mock AIME 2024-2025 est un benchmark public compilé par Epoch AI pour évaluer la résolution de problèmes mathématiques de compétition. Il rassemble des exercices de style AIME, avec des réponses entières, et se situe sur un niveau intermédiaire à avancé.

Ce test sert à mesurer la capacité des modèles à mener un raisonnement mathématique exact sur des problèmes courts mais exigeants. Il complète les évaluations généralistes en ciblant une compétence précise, plus difficile que MATH niveau 5, mais moins extrême que FrontierMath.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEpoch AI
Capacités mesuréesResolution de problemes mathematiques de niveau competition (style AIME), intermediaire a avance
ModalitéTexte
Type de questionsProblemes mathematiques a reponse entiere (entiers de 0 a 999)
Métrique d'évaluationExactitude (accuracy)
AccèsPublic
Languesanglais
Taille du jeu45 problemes (15 Mock AIME 2024, 15 Mock AIME 2025 I, 15 Mock AIME 2025 II)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5OpenAI100,0 %23 avril 2026✅ Mesuré
2GPT-5.5 ProOpenAI100,0 %23 avril 2026✅ Mesuré
3Claude Fable 5Anthropic99,7 %9 juin 2026✅ Mesuré
4Claude Opus 4.8Anthropic98,3 %28 mai 2026✅ Mesuré
5Claude Opus 4.7Anthropic97,8 %12 mai 2026✅ Mesuré
6DeepSeek V4 ProDeepSeek96,7 %24 avril 2026✅ Mesuré
7Kimi K2.7 CodeMoonshot AI96,4 %12 juin 2026✅ Mesuré
8GPT-5.2OpenAI96,1 %11 décembre 2025✅ Mesuré
9Kimi K2.6Moonshot AI96,1 %20 avril 2026✅ Mesuré
10Gemini 3.1 Pro PreviewGoogle95,6 %19 février 2026✅ Mesuré
11Gemini 3.5 FlashGoogle95,6 %19 mai 2026✅ Mesuré
12GPT-5.4OpenAI95,3 %5 mars 2026✅ Mesuré
13Qwen3.7 MaxQwen95,0 %19 mai 2026✅ Mesuré
14Claude Opus 4.6Anthropic94,4 %7 avril 2026✅ Mesuré
15Grok 4.3 BetaxAI93,3 %17 avril 2026✅ Mesuré
16Gemini 3 FlashGoogle92,8 %17 décembre 2025✅ Mesuré
17GLM-5.1Zhipu AI92,2 %7 avril 2026✅ Mesuré
18Kimi K2.5Moonshot AI92,2 %27 janvier 2026✅ Mesuré
19GPT-5OpenAI91,4 %7 août 2025✅ Mesuré
20Gemini 3 ProGoogle91,4 %18 novembre 2025✅ Mesuré

Classement établi sur 111 modèles évalués, dont 100 de grands éditeurs. Score médian de l'ensemble : 64,4 %.

Notre analyse

Un score élevé sur Epoch: OTIS Mock AIME 2024-2025 indique une forte aptitude à résoudre des problèmes mathématiques de compétition dont la réponse doit être exacte. Comme la métrique repose sur l’accuracy, le classement valorise directement la justesse finale, sans mesurer séparément la qualité du raisonnement intermédiaire. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs de modèles.

Le meilleur résultat recensé atteint 100% avec GPT-5.5 (OpenAI), tandis que la médiane de l’ensemble des 111 modèles évalués est de 64%. Cet écart suggère un benchmark encore discriminant pour une partie importante des modèles, même si le score parfait du leader signale un risque de saturation au sommet. Les limites tiennent aussi à la taille restreinte du jeu, à la langue anglaise, au format unique de réponses entières et au risque général de contamination lorsque des problèmes publics circulent dans les données d’entraînement.


Sources des scores : epoch.