Mathématiques

IMO-AnswerBench

IMO-AnswerBench est un benchmark public conçu par Google DeepMind pour évaluer le raisonnement mathématique de niveau International Mathematical Olympiad. Il se concentre sur des problèmes à réponse courte, unique et vérifiable, afin de mesurer la capacité des modèles à produire une…

Le benchmark sert à comparer les modèles sur des tâches où la génération de réponse et la vérification formelle du résultat jouent un rôle central. Il vise aussi à tester la robustesse face à la mémorisation, un enjeu important pour les évaluations mathématiques de haut niveau.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind
Capacités mesurées	Raisonnement mathematique de niveau olympiade (IMO), robustesse a la memorisation, generation et verification de reponses
Modalité	Texte
Type de questions	Problemes mathematiques a reponse courte unique et verifiable
Métrique d'évaluation	Précision (autograding strict)
Accès	Public
Langues	anglais
Taille du jeu	400 problemes (Algebre, Combinatoire, Geometrie, Theorie des nombres : 100 chacun), 4 niveaux de difficulte
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 18)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Nemotron 3 Ultra (550B A55B)	NVIDIA	92,3 %	4 juin 2026	Auto-déclaré
2	GLM-5.2	Zhipu AI	91,0 %	16 juin 2026	Auto-déclaré
3	Qwen3.7 Max	Qwen	90,0 %	19 mai 2026	Auto-déclaré
4	DeepSeek-V4-Pro-Max	DeepSeek	89,8 %	23 avril 2026	Auto-déclaré
5	DeepSeek-V4-Flash-Max	DeepSeek	88,4 %	23 avril 2026	Auto-déclaré
6	Kimi K2.6	Moonshot AI	86,0 %	20 avril 2026	Auto-déclaré
7	Qwen3.7-Plus	Qwen	86,0 %	31 mai 2026	Auto-déclaré
8	Step-3.5-Flash	StepFun	85,4 %	2 février 2026	Auto-déclaré
9	GLM-5.1	Zhipu AI	83,8 %	7 avril 2026	Auto-déclaré
10	Qwen3.6 Plus	Qwen	83,8 %	31 mars 2026	Auto-déclaré
11	GLM-4.7	Zhipu AI	82,0 %	22 décembre 2025	Auto-déclaré
12	Kimi K2.5	Moonshot AI	81,8 %	27 janvier 2026	Auto-déclaré
13	Qwen3.5-397B-A17B	Qwen	80,9 %	16 février 2026	Auto-déclaré
14	Qwen3.6-27B	Qwen	80,8 %	21 avril 2026	Auto-déclaré
15	Qwen3.6-35B-A3B	Qwen	78,9 %	16 avril 2026	Auto-déclaré
16	Kimi K2 0905	Moonshot AI	78,6 %	5 septembre 2025	Auto-déclaré
17	LongCat-Flash-Thinking-2601	Meituan	78,6 %	14 janvier 2026	Auto-déclaré
18	DeepSeek-V3.2	DeepSeek	78,3 %	1 décembre 2025	Auto-déclaré

Classement établi sur 18 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 83,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur IMO-AnswerBench indique une forte capacité à résoudre des problèmes mathématiques exigeants avec une réponse finale exacte, dans un format adapté à l’autograding strict. La métrique de précision rend l’évaluation lisible, mais elle ne capture pas nécessairement la qualité complète du raisonnement intermédiaire. La fiabilité du classement doit aussi être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.

La médiane élevée observée dans la base suggère une possible saturation partielle du benchmark parmi les modèles les plus avancés.
La robustesse à la mémorisation est explicitement visée, mais le risque de contamination ne peut pas être écarté uniquement à partir des scores publiés.
La portée reste spécialisée, centrée sur des problèmes IMO en anglais, et ne résume pas l’ensemble des compétences mathématiques ou générales d’un modèle.

Le classement montre néanmoins une hiérarchie nette entre modèles évalués, avec Nemotron 3 Ultra (550B A55B) (NVIDIA) en tête dans la base.

Sources des scores : llm-stats.

IMO-AnswerBench

Carte d'identité

Classement des modèles (top 18)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench