HMMT25
HMMT25 est un benchmark d’évaluation mathématique construit par MathArena à partir des problèmes du Harvard-MIT Mathematics Tournament. Il cible des exercices de compétition de niveau lycée, dans l’esprit des olympiades, avec des réponses courtes ou numériques plutôt qu’une simple…
HMMT25 est un benchmark d’évaluation mathématique construit par MathArena à partir des problèmes du Harvard-MIT Mathematics Tournament. Il cible des exercices de compétition de niveau lycée, dans l’esprit des olympiades, avec des réponses courtes ou numériques plutôt qu’une simple sélection à choix multiples.
Son rôle est de tester la capacité des modèles d’IA à produire un raisonnement mathématique fiable sur des problèmes exigeants. Il sert ainsi de repère spécialisé pour comparer les performances en mathématiques de compétition, au-delà des évaluations généralistes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | MathArena (a partir des problemes du Harvard-MIT Mathematics Tournament) |
| Capacités mesurées | Raisonnement mathematique de competition olympiade niveau lycee |
| Modalité | Texte |
| Type de questions | problemes de competition mathematique a reponse courte/numerique |
| Métrique d'évaluation | exactitude moyenne sur 4 essais par probleme (echelle 0-1) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | ~30 problemes par competition (HMMT 2025) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Grok-4 Heavy | xAI | 96,7 % | 10 juillet 2025 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 94,6 % | 31 mars 2026 | Auto-déclaré |
| 3 | Qwen3.5-397B-A17B | Qwen | 92,7 % | 16 février 2026 | Auto-déclaré |
| 4 | Qwen3.6-27B | Qwen | 90,7 % | 21 avril 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 90,3 % | 24 février 2026 | Auto-déclaré |
| 6 | Grok-4 | xAI | 90,0 % | 9 juillet 2025 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 89,8 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-35B-A3B | Qwen | 89,2 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3.6-35B-A3B | Qwen | 89,1 % | 16 avril 2026 | Auto-déclaré |
| 10 | Sarvam-105B | sarvamai | 85,8 % | 6 mars 2026 | Auto-déclaré |
| 11 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 83,9 % | 25 juillet 2025 | Auto-déclaré |
| 12 | Qwen3.5-9B | Qwen | 82,9 % | 2 mars 2026 | Auto-déclaré |
| 13 | Qwen3 VL 235B A22B Thinking | Qwen | 77,4 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3.5-4B | Qwen | 76,8 % | 2 mars 2026 | Auto-déclaré |
| 15 | Sarvam-30B | sarvamai | 74,2 % | 6 mars 2026 | Auto-déclaré |
| 16 | Qwen3-Next-80B-A3B-Thinking | Qwen | 73,9 % | 10 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 30B A3B Thinking | Qwen | 67,6 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 8B Thinking | Qwen | 60,6 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 235B A22B Instruct | Qwen | 57,4 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 55,4 % | 22 juillet 2025 | Auto-déclaré |
Classement établi sur 25 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 77,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HMMT25 indique une forte aptitude à résoudre des problèmes mathématiques courts mais difficiles, avec une mesure fondée sur l’exactitude moyenne sur plusieurs essais par problème. Cette approche limite en partie l’effet d’une réponse isolée, mais la fiabilité globale doit être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière entièrement indépendante.
Le classement montre un niveau déjà élevé parmi les modèles suivis, avec une médiane à 77 % et un meilleur résultat de 97 % pour Grok-4 Heavy (xAI). Cela suggère que les meilleurs systèmes approchent une forme de saturation sur ce jeu précis, ce qui peut réduire la capacité du benchmark à différencier les modèles de tête. Les limites principales tiennent à la taille restreinte du jeu, à son périmètre très spécialisé, à l’usage exclusif de l’anglais et au risque habituel de contamination lorsque des problèmes de compétition deviennent publics.
Sources des scores : llm-stats.