Mathématiques

HMMT Feb 26

HMMT Feb 26 est un benchmark de mathématiques de compétition fondé sur des problèmes du Harvard-MIT Mathematics Tournament. Créé par MathArena, associé à l’ETH Zurich et à eth-sri, il vise à évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques avancés nécessitant…

Le benchmark s’inscrit dans les évaluations spécialisées qui cherchent à mesurer autre chose que la connaissance générale. Avec des réponses courtes ou numériques, il met l’accent sur l’exactitude finale et sert d’indicateur de performance pour les modèles confrontés à des tâches mathématiques exigeantes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	MathArena (ETH Zurich / eth-sri)
Capacités mesurées	Resolution de problemes mathematiques avances de competition (raisonnement)
Modalité	Texte
Type de questions	Problemes de competition mathematique (reponse courte/numerique)
Métrique d'évaluation	Exactitude (moyenne sur 4 essais par probleme)
Accès	Public
Licence	CC BY-NC-SA 4.0
Langues	Anglais
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	97,1 %	19 mai 2026	Auto-déclaré
2	DeepSeek-V4-Pro-Max	DeepSeek	95,2 %	23 avril 2026	Auto-déclaré
3	DeepSeek-V4-Flash-Max	DeepSeek	94,8 %	23 avril 2026	Auto-déclaré
4	Qwen3.7-Plus	Qwen	92,9 %	31 mai 2026	Auto-déclaré
5	Kimi K2.6	Moonshot AI	92,7 %	20 avril 2026	Auto-déclaré
6	GLM-5.2	Zhipu AI	92,5 %	16 juin 2026	Auto-déclaré
7	Qwen3.6 Plus	Qwen	87,8 %	31 mars 2026	Auto-déclaré
8	MAI-Thinking-1	Microsoft	84,9 %	2 juin 2026	Auto-déclaré
9	Qwen3.6-27B	Qwen	84,3 %	21 avril 2026	Auto-déclaré
10	Qwen3.6-35B-A3B	Qwen	83,6 %	16 avril 2026	Auto-déclaré
11	GLM-5.1	Zhipu AI	82,6 %	7 avril 2026	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 92,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HMMT Feb 26 indique une forte capacité à produire la réponse correcte sur des problèmes de compétition mathématique avancée, avec une moyenne calculée sur plusieurs essais par problème. Dans la base considérée, les résultats sont élevés dans l’ensemble, avec une médiane à 92 % et un meilleur score de 97 % pour Qwen3.7 Max, ce qui suggère un classement resserré en tête.

La lecture des scores doit toutefois rester prudente. La fiabilité est limitée par le fait que les résultats sont majoritairement auto-déclarés par les éditeurs, plutôt que systématiquement mesurés dans un cadre indépendant. Le niveau élevé des performances peut aussi signaler une forme de saturation, réduisant la capacité du benchmark à distinguer finement les meilleurs modèles. Comme pour tout jeu issu de compétitions connues, le risque de contamination des données d’entraînement ne peut pas être écarté à partir des seuls éléments disponibles. Enfin, la portée reste ciblée : HMMT Feb 26 renseigne sur le raisonnement mathématique en anglais, pas sur les compétences générales ou multimodales.

Sources des scores : llm-stats.

HMMT Feb 26

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23