Mathématiques

HMMT25

HMMT25 est un benchmark d’évaluation mathématique construit par MathArena à partir des problèmes du Harvard-MIT Mathematics Tournament. Il cible des exercices de compétition de niveau lycée, dans l’esprit des olympiades, avec des réponses courtes ou numériques plutôt qu’une simple…

Son rôle est de tester la capacité des modèles d’IA à produire un raisonnement mathématique fiable sur des problèmes exigeants. Il sert ainsi de repère spécialisé pour comparer les performances en mathématiques de compétition, au-delà des évaluations généralistes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	MathArena (a partir des problemes du Harvard-MIT Mathematics Tournament)
Capacités mesurées	Raisonnement mathematique de competition olympiade niveau lycee
Modalité	Texte
Type de questions	problemes de competition mathematique a reponse courte/numerique
Métrique d'évaluation	exactitude moyenne sur 4 essais par probleme (echelle 0-1)
Accès	Public
Langues	anglais
Taille du jeu	~30 problemes par competition (HMMT 2025)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Grok-4 Heavy	xAI	96,7 %	10 juillet 2025	Auto-déclaré
2	Qwen3.6 Plus	Qwen	94,6 %	31 mars 2026	Auto-déclaré
3	Qwen3.5-397B-A17B	Qwen	92,7 %	16 février 2026	Auto-déclaré
4	Qwen3.6-27B	Qwen	90,7 %	21 avril 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	90,3 %	24 février 2026	Auto-déclaré
6	Grok-4	xAI	90,0 %	9 juillet 2025	Auto-déclaré
7	Qwen3.5-27B	Qwen	89,8 %	24 février 2026	Auto-déclaré
8	Qwen3.5-35B-A3B	Qwen	89,2 %	24 février 2026	Auto-déclaré
9	Qwen3.6-35B-A3B	Qwen	89,1 %	16 avril 2026	Auto-déclaré
10	Sarvam-105B	sarvamai	85,8 %	6 mars 2026	Auto-déclaré
11	Qwen3-235B-A22B-Thinking-2507	Qwen	83,9 %	25 juillet 2025	Auto-déclaré
12	Qwen3.5-9B	Qwen	82,9 %	2 mars 2026	Auto-déclaré
13	Qwen3 VL 235B A22B Thinking	Qwen	77,4 %	22 septembre 2025	Auto-déclaré
14	Qwen3.5-4B	Qwen	76,8 %	2 mars 2026	Auto-déclaré
15	Sarvam-30B	sarvamai	74,2 %	6 mars 2026	Auto-déclaré
16	Qwen3-Next-80B-A3B-Thinking	Qwen	73,9 %	10 septembre 2025	Auto-déclaré
17	Qwen3 VL 30B A3B Thinking	Qwen	67,6 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 8B Thinking	Qwen	60,6 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 235B A22B Instruct	Qwen	57,4 %	22 septembre 2025	Auto-déclaré
20	Qwen3-235B-A22B-Instruct-2507	Qwen	55,4 %	22 juillet 2025	Auto-déclaré

Classement établi sur 25 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 77,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HMMT25 indique une forte aptitude à résoudre des problèmes mathématiques courts mais difficiles, avec une mesure fondée sur l’exactitude moyenne sur plusieurs essais par problème. Cette approche limite en partie l’effet d’une réponse isolée, mais la fiabilité globale doit être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière entièrement indépendante.

Le classement montre un niveau déjà élevé parmi les modèles suivis, avec une médiane à 77 % et un meilleur résultat de 97 % pour Grok-4 Heavy (xAI). Cela suggère que les meilleurs systèmes approchent une forme de saturation sur ce jeu précis, ce qui peut réduire la capacité du benchmark à différencier les modèles de tête. Les limites principales tiennent à la taille restreinte du jeu, à son périmètre très spécialisé, à l’usage exclusif de l’anglais et au risque habituel de contamination lorsque des problèmes de compétition deviennent publics.

Sources des scores : llm-stats.

HMMT25

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench