HMMT Feb 26
HMMT Feb 26 est un benchmark de mathématiques de compétition fondé sur des problèmes du Harvard-MIT Mathematics Tournament. Créé par MathArena, associé à l’ETH Zurich et à eth-sri, il vise à évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques avancés nécessitant…
HMMT Feb 26 est un benchmark de mathématiques de compétition fondé sur des problèmes du Harvard-MIT Mathematics Tournament. Créé par MathArena, associé à l’ETH Zurich et à eth-sri, il vise à évaluer la capacité des modèles d’IA à résoudre des problèmes mathématiques avancés nécessitant du raisonnement.
Le benchmark s’inscrit dans les évaluations spécialisées qui cherchent à mesurer autre chose que la connaissance générale. Avec des réponses courtes ou numériques, il met l’accent sur l’exactitude finale et sert d’indicateur de performance pour les modèles confrontés à des tâches mathématiques exigeantes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | MathArena (ETH Zurich / eth-sri) |
| Capacités mesurées | Resolution de problemes mathematiques avances de competition (raisonnement) |
| Modalité | Texte |
| Type de questions | Problemes de competition mathematique (reponse courte/numerique) |
| Métrique d'évaluation | Exactitude (moyenne sur 4 essais par probleme) |
| Accès | Public |
| Licence | CC BY-NC-SA 4.0 |
| Langues | Anglais |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 97,1 % | 19 mai 2026 | Auto-déclaré |
| 2 | DeepSeek-V4-Pro-Max | DeepSeek | 95,2 % | 23 avril 2026 | Auto-déclaré |
| 3 | DeepSeek-V4-Flash-Max | DeepSeek | 94,8 % | 23 avril 2026 | Auto-déclaré |
| 4 | Qwen3.7-Plus | Qwen | 92,9 % | 31 mai 2026 | Auto-déclaré |
| 5 | Kimi K2.6 | Moonshot AI | 92,7 % | 20 avril 2026 | Auto-déclaré |
| 6 | GLM-5.2 | Zhipu AI | 92,5 % | 16 juin 2026 | Auto-déclaré |
| 7 | Qwen3.6 Plus | Qwen | 87,8 % | 31 mars 2026 | Auto-déclaré |
| 8 | MAI-Thinking-1 | Microsoft | 84,9 % | 2 juin 2026 | Auto-déclaré |
| 9 | Qwen3.6-27B | Qwen | 84,3 % | 21 avril 2026 | Auto-déclaré |
| 10 | Qwen3.6-35B-A3B | Qwen | 83,6 % | 16 avril 2026 | Auto-déclaré |
| 11 | GLM-5.1 | Zhipu AI | 82,6 % | 7 avril 2026 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 92,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HMMT Feb 26 indique une forte capacité à produire la réponse correcte sur des problèmes de compétition mathématique avancée, avec une moyenne calculée sur plusieurs essais par problème. Dans la base considérée, les résultats sont élevés dans l’ensemble, avec une médiane à 92 % et un meilleur score de 97 % pour Qwen3.7 Max, ce qui suggère un classement resserré en tête.
La lecture des scores doit toutefois rester prudente. La fiabilité est limitée par le fait que les résultats sont majoritairement auto-déclarés par les éditeurs, plutôt que systématiquement mesurés dans un cadre indépendant. Le niveau élevé des performances peut aussi signaler une forme de saturation, réduisant la capacité du benchmark à distinguer finement les meilleurs modèles. Comme pour tout jeu issu de compétitions connues, le risque de contamination des données d’entraînement ne peut pas être écarté à partir des seuls éléments disponibles. Enfin, la portée reste ciblée : HMMT Feb 26 renseigne sur le raisonnement mathématique en anglais, pas sur les compétences générales ou multimodales.
Sources des scores : llm-stats.