HMMT25

HMMT25 est un benchmark d’évaluation mathématique construit par MathArena à partir des problèmes du Harvard-MIT Mathematics Tournament. Il cible des exercices de compétition de niveau lycée, dans l’esprit des olympiades, avec des réponses courtes ou numériques plutôt qu’une simple…

HMMT25 est un benchmark d’évaluation mathématique construit par MathArena à partir des problèmes du Harvard-MIT Mathematics Tournament. Il cible des exercices de compétition de niveau lycée, dans l’esprit des olympiades, avec des réponses courtes ou numériques plutôt qu’une simple sélection à choix multiples.

Son rôle est de tester la capacité des modèles d’IA à produire un raisonnement mathématique fiable sur des problèmes exigeants. Il sert ainsi de repère spécialisé pour comparer les performances en mathématiques de compétition, au-delà des évaluations généralistes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMathArena (a partir des problemes du Harvard-MIT Mathematics Tournament)
Capacités mesuréesRaisonnement mathematique de competition olympiade niveau lycee
ModalitéTexte
Type de questionsproblemes de competition mathematique a reponse courte/numerique
Métrique d'évaluationexactitude moyenne sur 4 essais par probleme (echelle 0-1)
AccèsPublic
Languesanglais
Taille du jeu~30 problemes par competition (HMMT 2025)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Grok-4 HeavyxAI96,7 %10 juillet 2025Auto-déclaré
2Qwen3.6 PlusQwen94,6 %31 mars 2026Auto-déclaré
3Qwen3.5-397B-A17BQwen92,7 %16 février 2026Auto-déclaré
4Qwen3.6-27BQwen90,7 %21 avril 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen90,3 %24 février 2026Auto-déclaré
6Grok-4xAI90,0 %9 juillet 2025Auto-déclaré
7Qwen3.5-27BQwen89,8 %24 février 2026Auto-déclaré
8Qwen3.5-35B-A3BQwen89,2 %24 février 2026Auto-déclaré
9Qwen3.6-35B-A3BQwen89,1 %16 avril 2026Auto-déclaré
10Sarvam-105Bsarvamai85,8 %6 mars 2026Auto-déclaré
11Qwen3-235B-A22B-Thinking-2507Qwen83,9 %25 juillet 2025Auto-déclaré
12Qwen3.5-9BQwen82,9 %2 mars 2026Auto-déclaré
13Qwen3 VL 235B A22B ThinkingQwen77,4 %22 septembre 2025Auto-déclaré
14Qwen3.5-4BQwen76,8 %2 mars 2026Auto-déclaré
15Sarvam-30Bsarvamai74,2 %6 mars 2026Auto-déclaré
16Qwen3-Next-80B-A3B-ThinkingQwen73,9 %10 septembre 2025Auto-déclaré
17Qwen3 VL 30B A3B ThinkingQwen67,6 %22 septembre 2025Auto-déclaré
18Qwen3 VL 8B ThinkingQwen60,6 %22 septembre 2025Auto-déclaré
19Qwen3 VL 235B A22B InstructQwen57,4 %22 septembre 2025Auto-déclaré
20Qwen3-235B-A22B-Instruct-2507Qwen55,4 %22 juillet 2025Auto-déclaré

Classement établi sur 25 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 77,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HMMT25 indique une forte aptitude à résoudre des problèmes mathématiques courts mais difficiles, avec une mesure fondée sur l’exactitude moyenne sur plusieurs essais par problème. Cette approche limite en partie l’effet d’une réponse isolée, mais la fiabilité globale doit être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière entièrement indépendante.

Le classement montre un niveau déjà élevé parmi les modèles suivis, avec une médiane à 77 % et un meilleur résultat de 97 % pour Grok-4 Heavy (xAI). Cela suggère que les meilleurs systèmes approchent une forme de saturation sur ce jeu précis, ce qui peut réduire la capacité du benchmark à différencier les modèles de tête. Les limites principales tiennent à la taille restreinte du jeu, à son périmètre très spécialisé, à l’usage exclusif de l’anglais et au risque habituel de contamination lorsque des problèmes de compétition deviennent publics.


Sources des scores : llm-stats.