HMMT 2025

HMMT 2025 est un benchmark de raisonnement mathématique fondé sur les problèmes du Harvard-MIT Mathematics Tournament, adapté par MathArena pour l’évaluation des modèles d’IA. Il reprend l’esprit d’une compétition lycéenne de haut niveau, avec des énoncés courts ou numériques qui exigent…

HMMT 2025 est un benchmark de raisonnement mathématique fondé sur les problèmes du Harvard-MIT Mathematics Tournament, adapté par MathArena pour l’évaluation des modèles d’IA. Il reprend l’esprit d’une compétition lycéenne de haut niveau, avec des énoncés courts ou numériques qui exigent calcul, stratégie et maîtrise de techniques d’olympiade.

Dans une modelothèque, HMMT 2025 sert surtout à situer la capacité des modèles à résoudre des problèmes mathématiques exigeants, mais fermés, où la réponse finale peut être vérifiée objectivement. Il complète des évaluations plus générales en isolant une compétence précise : le raisonnement mathématique compétitif.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMathArena (a partir des problemes du Harvard-MIT Mathematics Tournament)
Capacités mesuréesRaisonnement mathematique de competition olympiade niveau lycee
ModalitéTexte
Type de questionsproblemes de competition mathematique a reponse courte/numerique
Métrique d'évaluationexactitude moyenne sur 4 essais par probleme (echelle 0-1)
AccèsPublic
Languesanglais
Taille du jeu~30 problemes par competition (HMMT fevrier et novembre 2025)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.2 ProOpenAI100,0 %11 décembre 2025Auto-déclaré
2GPT-5.2OpenAI99,4 %11 décembre 2025Auto-déclaré
3DeepSeek-V3.2-SpecialeDeepSeek99,2 %1 décembre 2025Auto-déclaré
4Kimi K2 0905Moonshot AI97,5 %5 septembre 2025Auto-déclaré
5Qwen3.6 PlusQwen96,7 %31 mars 2026Auto-déclaré
6Kimi K2.5Moonshot AI95,4 %27 janvier 2026Auto-déclaré
7Qwen3.5-397B-A17BQwen94,8 %16 février 2026Auto-déclaré
8Nemotron 3 Super (120B A12B)NVIDIA94,7 %11 mars 2026Auto-déclaré
9GLM-5.2Zhipu AI94,4 %16 juin 2026Auto-déclaré
10GLM-5.1Zhipu AI94,0 %7 avril 2026Auto-déclaré
11Qwen3.6-27BQwen93,8 %21 avril 2026Auto-déclaré
12GPT-5OpenAI93,3 %7 août 2025Auto-déclaré
13Grok 4 FastxAI93,3 %28 août 2025Auto-déclaré
14Qwen3.5-27BQwen92,0 %24 février 2026Auto-déclaré
15Qwen3.5-122B-A10BQwen91,4 %24 février 2026Auto-déclaré
16Qwen3.6-35B-A3BQwen90,7 %16 avril 2026Auto-déclaré
17DeepSeek-V3.2DeepSeek90,2 %1 décembre 2025Auto-déclaré
18DeepSeek-V3.2 (Thinking)DeepSeek90,2 %1 décembre 2025Auto-déclaré
19Qwen3.5-35B-A3BQwen89,0 %24 février 2026Auto-déclaré
20GPT-5 miniOpenAI87,8 %7 août 2025Auto-déclaré

Classement établi sur 33 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 90,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HMMT 2025 indique une forte aptitude à produire des réponses exactes sur des problèmes de compétition, avec une métrique fondée sur l’exactitude moyenne après plusieurs essais par problème. Le classement montre un niveau global très élevé dans la base, avec une médiane à 90 % et un meilleur résultat à 100 % pour GPT-5.2 Pro (OpenAI), ce qui suggère une possible saturation pour les modèles les plus performants. La lecture des résultats doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement indépendante et reproductible. Le caractère public du benchmark peut aussi accroître le risque de contamination, notamment si des problèmes ou solutions ont circulé dans les données d’entraînement. Sa portée reste ciblée : il mesure des problèmes mathématiques courts, en anglais, de niveau olympiade lycéenne, et ne résume pas à lui seul les capacités générales en mathématiques, en preuve formelle ou en raisonnement appliqué.


Sources des scores : llm-stats.