IMO-AnswerBench

IMO-AnswerBench est un benchmark public conçu par Google DeepMind pour évaluer le raisonnement mathématique de niveau International Mathematical Olympiad. Il se concentre sur des problèmes à réponse courte, unique et vérifiable, afin de mesurer la capacité des modèles à produire une…

IMO-AnswerBench est un benchmark public conçu par Google DeepMind pour évaluer le raisonnement mathématique de niveau International Mathematical Olympiad. Il se concentre sur des problèmes à réponse courte, unique et vérifiable, afin de mesurer la capacité des modèles à produire une solution correcte dans un cadre strict.

Le benchmark sert à comparer les modèles sur des tâches où la génération de réponse et la vérification formelle du résultat jouent un rôle central. Il vise aussi à tester la robustesse face à la mémorisation, un enjeu important pour les évaluations mathématiques de haut niveau.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind
Capacités mesuréesRaisonnement mathematique de niveau olympiade (IMO), robustesse a la memorisation, generation et verification de reponses
ModalitéTexte
Type de questionsProblemes mathematiques a reponse courte unique et verifiable
Métrique d'évaluationPrécision (autograding strict)
AccèsPublic
Languesanglais
Taille du jeu400 problemes (Algebre, Combinatoire, Geometrie, Theorie des nombres : 100 chacun), 4 niveaux de difficulte
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 18)

#ModèleÉditeurScoreSortieFiabilité
1Nemotron 3 Ultra (550B A55B)NVIDIA92,3 %4 juin 2026Auto-déclaré
2GLM-5.2Zhipu AI91,0 %16 juin 2026Auto-déclaré
3Qwen3.7 MaxQwen90,0 %19 mai 2026Auto-déclaré
4DeepSeek-V4-Pro-MaxDeepSeek89,8 %23 avril 2026Auto-déclaré
5DeepSeek-V4-Flash-MaxDeepSeek88,4 %23 avril 2026Auto-déclaré
6Kimi K2.6Moonshot AI86,0 %20 avril 2026Auto-déclaré
7Qwen3.7-PlusQwen86,0 %31 mai 2026Auto-déclaré
8Step-3.5-FlashStepFun85,4 %2 février 2026Auto-déclaré
9GLM-5.1Zhipu AI83,8 %7 avril 2026Auto-déclaré
10Qwen3.6 PlusQwen83,8 %31 mars 2026Auto-déclaré
11GLM-4.7Zhipu AI82,0 %22 décembre 2025Auto-déclaré
12Kimi K2.5Moonshot AI81,8 %27 janvier 2026Auto-déclaré
13Qwen3.5-397B-A17BQwen80,9 %16 février 2026Auto-déclaré
14Qwen3.6-27BQwen80,8 %21 avril 2026Auto-déclaré
15Qwen3.6-35B-A3BQwen78,9 %16 avril 2026Auto-déclaré
16Kimi K2 0905Moonshot AI78,6 %5 septembre 2025Auto-déclaré
17LongCat-Flash-Thinking-2601Meituan78,6 %14 janvier 2026Auto-déclaré
18DeepSeek-V3.2DeepSeek78,3 %1 décembre 2025Auto-déclaré

Classement établi sur 18 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 83,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur IMO-AnswerBench indique une forte capacité à résoudre des problèmes mathématiques exigeants avec une réponse finale exacte, dans un format adapté à l’autograding strict. La métrique de précision rend l’évaluation lisible, mais elle ne capture pas nécessairement la qualité complète du raisonnement intermédiaire. La fiabilité du classement doit aussi être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.

  • La médiane élevée observée dans la base suggère une possible saturation partielle du benchmark parmi les modèles les plus avancés.
  • La robustesse à la mémorisation est explicitement visée, mais le risque de contamination ne peut pas être écarté uniquement à partir des scores publiés.
  • La portée reste spécialisée, centrée sur des problèmes IMO en anglais, et ne résume pas l’ensemble des compétences mathématiques ou générales d’un modèle.

Le classement montre néanmoins une hiérarchie nette entre modèles évalués, avec Nemotron 3 Ultra (550B A55B) (NVIDIA) en tête dans la base.


Sources des scores : llm-stats.