HMMT Feb 26

HMMT Feb 26 est un benchmark de mathématiques de compétition fondé sur des problèmes du Harvard-MIT Mathematics Tournament. Créé par MathArena, associé à l’ETH Zurich et à eth-sri, il vise à évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques avancés nécessitant…

HMMT Feb 26 est un benchmark de mathématiques de compétition fondé sur des problèmes du Harvard-MIT Mathematics Tournament. Créé par MathArena, associé à l’ETH Zurich et à eth-sri, il vise à évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques avancés nécessitant du raisonnement.

Le benchmark s’inscrit dans les évaluations spécialisées qui cherchent à mesurer autre chose que la connaissance générale. Avec des réponses courtes ou numériques, il met l’accent sur l’exactitude finale et sert d’indicateur de performance pour les modèles confrontés à des tâches mathématiques exigeantes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMathArena (ETH Zurich / eth-sri)
Capacités mesuréesResolution de problemes mathematiques avances de competition (raisonnement)
ModalitéTexte
Type de questionsProblemes de competition mathematique (reponse courte/numerique)
Métrique d'évaluationExactitude (moyenne sur 4 essais par probleme)
AccèsPublic
LicenceCC BY-NC-SA 4.0
LanguesAnglais
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen97,1 %19 mai 2026Auto-déclaré
2DeepSeek-V4-Pro-MaxDeepSeek95,2 %23 avril 2026Auto-déclaré
3DeepSeek-V4-Flash-MaxDeepSeek94,8 %23 avril 2026Auto-déclaré
4Qwen3.7-PlusQwen92,9 %31 mai 2026Auto-déclaré
5Kimi K2.6Moonshot AI92,7 %20 avril 2026Auto-déclaré
6GLM-5.2Zhipu AI92,5 %16 juin 2026Auto-déclaré
7Qwen3.6 PlusQwen87,8 %31 mars 2026Auto-déclaré
8MAI-Thinking-1Microsoft84,9 %2 juin 2026Auto-déclaré
9Qwen3.6-27BQwen84,3 %21 avril 2026Auto-déclaré
10Qwen3.6-35B-A3BQwen83,6 %16 avril 2026Auto-déclaré
11GLM-5.1Zhipu AI82,6 %7 avril 2026Auto-déclaré

Classement établi sur 11 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 92,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HMMT Feb 26 indique une forte capacité à produire la réponse correcte sur des problèmes de compétition mathématique avancée, avec une moyenne calculée sur plusieurs essais par problème. Dans la base considérée, les résultats sont élevés dans l’ensemble, avec une médiane à 92 % et un meilleur score de 97 % pour Qwen3.7 Max, ce qui suggère un classement resserré en tête.

La lecture des scores doit toutefois rester prudente. La fiabilité est limitée par le fait que les résultats sont majoritairement auto-déclarés par les éditeurs, plutôt que systématiquement mesurés dans un cadre indépendant. Le niveau élevé des performances peut aussi signaler une forme de saturation, réduisant la capacité du benchmark à distinguer finement les meilleurs modèles. Comme pour tout jeu issu de compétitions connues, le risque de contamination des données d’entraînement ne peut pas être écarté à partir des seuls éléments disponibles. Enfin, la portée reste ciblée : HMMT Feb 26 renseigne sur le raisonnement mathématique en anglais, pas sur les compétences générales ou multimodales.


Sources des scores : llm-stats.