IMO-AnswerBench
IMO-AnswerBench est un benchmark public conçu par Google DeepMind pour évaluer le raisonnement mathématique de niveau International Mathematical Olympiad. Il se concentre sur des problèmes à réponse courte, unique et vérifiable, afin de mesurer la capacité des modèles à produire une…
IMO-AnswerBench est un benchmark public conçu par Google DeepMind pour évaluer le raisonnement mathématique de niveau International Mathematical Olympiad. Il se concentre sur des problèmes à réponse courte, unique et vérifiable, afin de mesurer la capacité des modèles à produire une solution correcte dans un cadre strict.
Le benchmark sert à comparer les modèles sur des tâches où la génération de réponse et la vérification formelle du résultat jouent un rôle central. Il vise aussi à tester la robustesse face à la mémorisation, un enjeu important pour les évaluations mathématiques de haut niveau.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google DeepMind |
| Capacités mesurées | Raisonnement mathematique de niveau olympiade (IMO), robustesse a la memorisation, generation et verification de reponses |
| Modalité | Texte |
| Type de questions | Problemes mathematiques a reponse courte unique et verifiable |
| Métrique d'évaluation | Précision (autograding strict) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 400 problemes (Algebre, Combinatoire, Geometrie, Theorie des nombres : 100 chacun), 4 niveaux de difficulte |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 18)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 92,3 % | 4 juin 2026 | Auto-déclaré |
| 2 | GLM-5.2 | Zhipu AI | 91,0 % | 16 juin 2026 | Auto-déclaré |
| 3 | Qwen3.7 Max | Qwen | 90,0 % | 19 mai 2026 | Auto-déclaré |
| 4 | DeepSeek-V4-Pro-Max | DeepSeek | 89,8 % | 23 avril 2026 | Auto-déclaré |
| 5 | DeepSeek-V4-Flash-Max | DeepSeek | 88,4 % | 23 avril 2026 | Auto-déclaré |
| 6 | Kimi K2.6 | Moonshot AI | 86,0 % | 20 avril 2026 | Auto-déclaré |
| 7 | Qwen3.7-Plus | Qwen | 86,0 % | 31 mai 2026 | Auto-déclaré |
| 8 | Step-3.5-Flash | StepFun | 85,4 % | 2 février 2026 | Auto-déclaré |
| 9 | GLM-5.1 | Zhipu AI | 83,8 % | 7 avril 2026 | Auto-déclaré |
| 10 | Qwen3.6 Plus | Qwen | 83,8 % | 31 mars 2026 | Auto-déclaré |
| 11 | GLM-4.7 | Zhipu AI | 82,0 % | 22 décembre 2025 | Auto-déclaré |
| 12 | Kimi K2.5 | Moonshot AI | 81,8 % | 27 janvier 2026 | Auto-déclaré |
| 13 | Qwen3.5-397B-A17B | Qwen | 80,9 % | 16 février 2026 | Auto-déclaré |
| 14 | Qwen3.6-27B | Qwen | 80,8 % | 21 avril 2026 | Auto-déclaré |
| 15 | Qwen3.6-35B-A3B | Qwen | 78,9 % | 16 avril 2026 | Auto-déclaré |
| 16 | Kimi K2 0905 | Moonshot AI | 78,6 % | 5 septembre 2025 | Auto-déclaré |
| 17 | LongCat-Flash-Thinking-2601 | Meituan | 78,6 % | 14 janvier 2026 | Auto-déclaré |
| 18 | DeepSeek-V3.2 | DeepSeek | 78,3 % | 1 décembre 2025 | Auto-déclaré |
Classement établi sur 18 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 83,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur IMO-AnswerBench indique une forte capacité à résoudre des problèmes mathématiques exigeants avec une réponse finale exacte, dans un format adapté à l’autograding strict. La métrique de précision rend l’évaluation lisible, mais elle ne capture pas nécessairement la qualité complète du raisonnement intermédiaire. La fiabilité du classement doit aussi être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.
- La médiane élevée observée dans la base suggère une possible saturation partielle du benchmark parmi les modèles les plus avancés.
- La robustesse à la mémorisation est explicitement visée, mais le risque de contamination ne peut pas être écarté uniquement à partir des scores publiés.
- La portée reste spécialisée, centrée sur des problèmes IMO en anglais, et ne résume pas l’ensemble des compétences mathématiques ou générales d’un modèle.
Le classement montre néanmoins une hiérarchie nette entre modèles évalués, avec Nemotron 3 Ultra (550B A55B) (NVIDIA) en tête dans la base.
Sources des scores : llm-stats.