HMMT 2025
HMMT 2025 est un benchmark de raisonnement mathématique fondé sur les problèmes du Harvard-MIT Mathematics Tournament, adapté par MathArena pour l’évaluation des modèles d’IA. Il reprend l’esprit d’une compétition lycéenne de haut niveau, avec des énoncés courts ou numériques qui exigent…
HMMT 2025 est un benchmark de raisonnement mathématique fondé sur les problèmes du Harvard-MIT Mathematics Tournament, adapté par MathArena pour l’évaluation des modèles d’IA. Il reprend l’esprit d’une compétition lycéenne de haut niveau, avec des énoncés courts ou numériques qui exigent calcul, stratégie et maîtrise de techniques d’olympiade.
Dans une modelothèque, HMMT 2025 sert surtout à situer la capacité des modèles à résoudre des problèmes mathématiques exigeants, mais fermés, où la réponse finale peut être vérifiée objectivement. Il complète des évaluations plus générales en isolant une compétence précise : le raisonnement mathématique compétitif.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | MathArena (a partir des problemes du Harvard-MIT Mathematics Tournament) |
| Capacités mesurées | Raisonnement mathematique de competition olympiade niveau lycee |
| Modalité | Texte |
| Type de questions | problemes de competition mathematique a reponse courte/numerique |
| Métrique d'évaluation | exactitude moyenne sur 4 essais par probleme (echelle 0-1) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | ~30 problemes par competition (HMMT fevrier et novembre 2025) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.2 Pro | OpenAI | 100,0 % | 11 décembre 2025 | Auto-déclaré |
| 2 | GPT-5.2 | OpenAI | 99,4 % | 11 décembre 2025 | Auto-déclaré |
| 3 | DeepSeek-V3.2-Speciale | DeepSeek | 99,2 % | 1 décembre 2025 | Auto-déclaré |
| 4 | Kimi K2 0905 | Moonshot AI | 97,5 % | 5 septembre 2025 | Auto-déclaré |
| 5 | Qwen3.6 Plus | Qwen | 96,7 % | 31 mars 2026 | Auto-déclaré |
| 6 | Kimi K2.5 | Moonshot AI | 95,4 % | 27 janvier 2026 | Auto-déclaré |
| 7 | Qwen3.5-397B-A17B | Qwen | 94,8 % | 16 février 2026 | Auto-déclaré |
| 8 | Nemotron 3 Super (120B A12B) | NVIDIA | 94,7 % | 11 mars 2026 | Auto-déclaré |
| 9 | GLM-5.2 | Zhipu AI | 94,4 % | 16 juin 2026 | Auto-déclaré |
| 10 | GLM-5.1 | Zhipu AI | 94,0 % | 7 avril 2026 | Auto-déclaré |
| 11 | Qwen3.6-27B | Qwen | 93,8 % | 21 avril 2026 | Auto-déclaré |
| 12 | GPT-5 | OpenAI | 93,3 % | 7 août 2025 | Auto-déclaré |
| 13 | Grok 4 Fast | xAI | 93,3 % | 28 août 2025 | Auto-déclaré |
| 14 | Qwen3.5-27B | Qwen | 92,0 % | 24 février 2026 | Auto-déclaré |
| 15 | Qwen3.5-122B-A10B | Qwen | 91,4 % | 24 février 2026 | Auto-déclaré |
| 16 | Qwen3.6-35B-A3B | Qwen | 90,7 % | 16 avril 2026 | Auto-déclaré |
| 17 | DeepSeek-V3.2 | DeepSeek | 90,2 % | 1 décembre 2025 | Auto-déclaré |
| 18 | DeepSeek-V3.2 (Thinking) | DeepSeek | 90,2 % | 1 décembre 2025 | Auto-déclaré |
| 19 | Qwen3.5-35B-A3B | Qwen | 89,0 % | 24 février 2026 | Auto-déclaré |
| 20 | GPT-5 mini | OpenAI | 87,8 % | 7 août 2025 | Auto-déclaré |
Classement établi sur 33 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 90,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HMMT 2025 indique une forte aptitude à produire des réponses exactes sur des problèmes de compétition, avec une métrique fondée sur l’exactitude moyenne après plusieurs essais par problème. Le classement montre un niveau global très élevé dans la base, avec une médiane à 90 % et un meilleur résultat à 100 % pour GPT-5.2 Pro (OpenAI), ce qui suggère une possible saturation pour les modèles les plus performants. La lecture des résultats doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement indépendante et reproductible. Le caractère public du benchmark peut aussi accroître le risque de contamination, notamment si des problèmes ou solutions ont circulé dans les données d’entraînement. Sa portée reste ciblée : il mesure des problèmes mathématiques courts, en anglais, de niveau olympiade lycéenne, et ne résume pas à lui seul les capacités générales en mathématiques, en preuve formelle ou en raisonnement appliqué.
Sources des scores : llm-stats.