Mathématiques

HMMT 2025

HMMT 2025 est un benchmark de raisonnement mathématique fondé sur les problèmes du Harvard-MIT Mathematics Tournament, adapté par MathArena pour l’évaluation des modèles d’IA. Il reprend l’esprit d’une compétition lycéenne de haut niveau, avec des énoncés courts ou numériques qui exigent…

Dans une modelothèque, HMMT 2025 sert surtout à situer la capacité des modèles à résoudre des problèmes mathématiques exigeants, mais fermés, où la réponse finale peut être vérifiée objectivement. Il complète des évaluations plus générales en isolant une compétence précise : le raisonnement mathématique compétitif.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	MathArena (a partir des problemes du Harvard-MIT Mathematics Tournament)
Capacités mesurées	Raisonnement mathematique de competition olympiade niveau lycee
Modalité	Texte
Type de questions	problemes de competition mathematique a reponse courte/numerique
Métrique d'évaluation	exactitude moyenne sur 4 essais par probleme (echelle 0-1)
Accès	Public
Langues	anglais
Taille du jeu	~30 problemes par competition (HMMT fevrier et novembre 2025)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.2 Pro	OpenAI	100,0 %	11 décembre 2025	Auto-déclaré
2	GPT-5.2	OpenAI	99,4 %	11 décembre 2025	Auto-déclaré
3	DeepSeek-V3.2-Speciale	DeepSeek	99,2 %	1 décembre 2025	Auto-déclaré
4	Kimi K2 0905	Moonshot AI	97,5 %	5 septembre 2025	Auto-déclaré
5	Qwen3.6 Plus	Qwen	96,7 %	31 mars 2026	Auto-déclaré
6	Kimi K2.5	Moonshot AI	95,4 %	27 janvier 2026	Auto-déclaré
7	Qwen3.5-397B-A17B	Qwen	94,8 %	16 février 2026	Auto-déclaré
8	Nemotron 3 Super (120B A12B)	NVIDIA	94,7 %	11 mars 2026	Auto-déclaré
9	GLM-5.2	Zhipu AI	94,4 %	16 juin 2026	Auto-déclaré
10	GLM-5.1	Zhipu AI	94,0 %	7 avril 2026	Auto-déclaré
11	Qwen3.6-27B	Qwen	93,8 %	21 avril 2026	Auto-déclaré
12	GPT-5	OpenAI	93,3 %	7 août 2025	Auto-déclaré
13	Grok 4 Fast	xAI	93,3 %	28 août 2025	Auto-déclaré
14	Qwen3.5-27B	Qwen	92,0 %	24 février 2026	Auto-déclaré
15	Qwen3.5-122B-A10B	Qwen	91,4 %	24 février 2026	Auto-déclaré
16	Qwen3.6-35B-A3B	Qwen	90,7 %	16 avril 2026	Auto-déclaré
17	DeepSeek-V3.2	DeepSeek	90,2 %	1 décembre 2025	Auto-déclaré
18	DeepSeek-V3.2 (Thinking)	DeepSeek	90,2 %	1 décembre 2025	Auto-déclaré
19	Qwen3.5-35B-A3B	Qwen	89,0 %	24 février 2026	Auto-déclaré
20	GPT-5 mini	OpenAI	87,8 %	7 août 2025	Auto-déclaré

Classement établi sur 33 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 90,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HMMT 2025 indique une forte aptitude à produire des réponses exactes sur des problèmes de compétition, avec une métrique fondée sur l’exactitude moyenne après plusieurs essais par problème. Le classement montre un niveau global très élevé dans la base, avec une médiane à 90 % et un meilleur résultat à 100 % pour GPT-5.2 Pro (OpenAI), ce qui suggère une possible saturation pour les modèles les plus performants. La lecture des résultats doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement indépendante et reproductible. Le caractère public du benchmark peut aussi accroître le risque de contamination, notamment si des problèmes ou solutions ont circulé dans les données d’entraînement. Sa portée reste ciblée : il mesure des problèmes mathématiques courts, en anglais, de niveau olympiade lycéenne, et ne résume pas à lui seul les capacités générales en mathématiques, en preuve formelle ou en raisonnement appliqué.

Sources des scores : llm-stats.

HMMT 2025

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench