OTIS Mock AIME 2024-2025
Epoch: OTIS Mock AIME 2024-2025 est un benchmark public compilé par Epoch AI pour évaluer la résolution de problèmes mathématiques de compétition. Il rassemble des exercices de style AIME, avec des réponses entières, et se situe sur un niveau intermédiaire à avancé.
Epoch: OTIS Mock AIME 2024-2025 est un benchmark public compilé par Epoch AI pour évaluer la résolution de problèmes mathématiques de compétition. Il rassemble des exercices de style AIME, avec des réponses entières, et se situe sur un niveau intermédiaire à avancé.
Ce test sert à mesurer la capacité des modèles à mener un raisonnement mathématique exact sur des problèmes courts mais exigeants. Il complète les évaluations généralistes en ciblant une compétence précise, plus difficile que MATH niveau 5, mais moins extrême que FrontierMath.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Epoch AI |
| Capacités mesurées | Resolution de problemes mathematiques de niveau competition (style AIME), intermediaire a avance |
| Modalité | Texte |
| Type de questions | Problemes mathematiques a reponse entiere (entiers de 0 a 999) |
| Métrique d'évaluation | Exactitude (accuracy) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 45 problemes (15 Mock AIME 2024, 15 Mock AIME 2025 I, 15 Mock AIME 2025 II) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | 100,0 % | 23 avril 2026 | ✅ Mesuré |
| 2 | GPT-5.5 Pro | OpenAI | 100,0 % | 23 avril 2026 | ✅ Mesuré |
| 3 | Claude Fable 5 | Anthropic | 99,7 % | 9 juin 2026 | ✅ Mesuré |
| 4 | Claude Opus 4.8 | Anthropic | 98,3 % | 28 mai 2026 | ✅ Mesuré |
| 5 | Claude Opus 4.7 | Anthropic | 97,8 % | 12 mai 2026 | ✅ Mesuré |
| 6 | DeepSeek V4 Pro | DeepSeek | 96,7 % | 24 avril 2026 | ✅ Mesuré |
| 7 | Kimi K2.7 Code | Moonshot AI | 96,4 % | 12 juin 2026 | ✅ Mesuré |
| 8 | GPT-5.2 | OpenAI | 96,1 % | 11 décembre 2025 | ✅ Mesuré |
| 9 | Kimi K2.6 | Moonshot AI | 96,1 % | 20 avril 2026 | ✅ Mesuré |
| 10 | Gemini 3.1 Pro Preview | 95,6 % | 19 février 2026 | ✅ Mesuré | |
| 11 | Gemini 3.5 Flash | 95,6 % | 19 mai 2026 | ✅ Mesuré | |
| 12 | GPT-5.4 | OpenAI | 95,3 % | 5 mars 2026 | ✅ Mesuré |
| 13 | Qwen3.7 Max | Qwen | 95,0 % | 19 mai 2026 | ✅ Mesuré |
| 14 | Claude Opus 4.6 | Anthropic | 94,4 % | 7 avril 2026 | ✅ Mesuré |
| 15 | Grok 4.3 Beta | xAI | 93,3 % | 17 avril 2026 | ✅ Mesuré |
| 16 | Gemini 3 Flash | 92,8 % | 17 décembre 2025 | ✅ Mesuré | |
| 17 | GLM-5.1 | Zhipu AI | 92,2 % | 7 avril 2026 | ✅ Mesuré |
| 18 | Kimi K2.5 | Moonshot AI | 92,2 % | 27 janvier 2026 | ✅ Mesuré |
| 19 | GPT-5 | OpenAI | 91,4 % | 7 août 2025 | ✅ Mesuré |
| 20 | Gemini 3 Pro | 91,4 % | 18 novembre 2025 | ✅ Mesuré |
Classement établi sur 111 modèles évalués, dont 100 de grands éditeurs. Score médian de l'ensemble : 64,4 %.
Notre analyse
Un score élevé sur Epoch: OTIS Mock AIME 2024-2025 indique une forte aptitude à résoudre des problèmes mathématiques de compétition dont la réponse doit être exacte. Comme la métrique repose sur l’accuracy, le classement valorise directement la justesse finale, sans mesurer séparément la qualité du raisonnement intermédiaire. La fiabilité est renforcée par le fait que les scores sont au moins partiellement mesurés par un tiers, ce qui limite la dépendance aux seules déclarations des fournisseurs de modèles.
Le meilleur résultat recensé atteint 100% avec GPT-5.5 (OpenAI), tandis que la médiane de l’ensemble des 111 modèles évalués est de 64%. Cet écart suggère un benchmark encore discriminant pour une partie importante des modèles, même si le score parfait du leader signale un risque de saturation au sommet. Les limites tiennent aussi à la taille restreinte du jeu, à la langue anglaise, au format unique de réponses entières et au risque général de contamination lorsque des problèmes publics circulent dans les données d’entraînement.
Sources des scores : epoch.