MMLU

MMLU, pour Massive Multitask Language Understanding, est un benchmark publié en 2020 par D. Hendrycks et al. Il évalue des modèles de langage au moyen de questions à choix multiple portant sur un large éventail de domaines, des sciences aux humanités, en passant par les sciences sociales…

MMLU, pour Massive Multitask Language Understanding, est un benchmark publié en 2020 par D. Hendrycks et al. Il évalue des modèles de langage au moyen de questions à choix multiple portant sur un large éventail de domaines, des sciences aux humanités, en passant par les sciences sociales et les domaines professionnels.

Le test sert à apprécier à la fois la compréhension linguistique, les connaissances factuelles et spécialisées, ainsi que la capacité à raisonner dans un contexte de QCM. Il reste l’un des repères généralistes utilisés pour comparer les performances de modèles sur des tâches de connaissance étendues.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkD. Hendrycks et al.
Capacités mesuréesfinance, généraliste, santé, langage, juridique, mathématiques, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeuenviron 15 900 questions, dont 14 042 questions de test, couvrant 57 sujets
Année de publication2020
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5OpenAI92,5 %7 août 2025Auto-déclaré
2o1OpenAI91,8 %17 décembre 2024Auto-déclaré
3GPT-5.4OpenAI90,8 %5 mars 2026Auto-déclaré
4o1-previewOpenAI90,8 %12 septembre 2024Auto-déclaré
5Qwen3 VL 235B A22B ThinkingQwen90,6 %22 septembre 2025Auto-déclaré
6Sarvam-105Bsarvamai90,6 %6 mars 2026Auto-déclaré
7Claude 3.5 SonnetAnthropic90,4 %22 octobre 2024Auto-déclaré
8GPT-4.1OpenAI90,2 %14 avril 2025Auto-déclaré
9Kimi K2 0905Moonshot AI90,2 %5 septembre 2025Auto-déclaré
10GPT OSS 120BOpenAI90,0 %5 août 2025Auto-déclaré
11LongCat-Flash-ChatMeituan89,7 %29 août 2025Auto-déclaré
12Kimi K2 InstructMoonshot AI89,5 %11 juillet 2025Auto-déclaré
13Kimi K2-Instruct-0905Moonshot AI89,5 %5 septembre 2025Auto-déclaré
14MiMo-V2.5-ProXiaomi89,4 %27 avril 2026Auto-déclaré
15Qwen3 VL 235B A22B InstructQwen88,8 %22 septembre 2025Auto-déclaré
16Qwen3 VL 32B ThinkingQwen88,7 %22 septembre 2025Auto-déclaré
17DeepSeek-V3DeepSeek88,5 %24 mars 2025Auto-déclaré
18Qwen3 235B A22BQwen87,8 %25 juillet 2025Auto-déclaré
19Kimi K2 BaseMoonshot AI87,8 %11 juillet 2025Auto-déclaré
20Qwen3 VL 30B A3B ThinkingQwen87,6 %22 septembre 2025Auto-déclaré

Classement établi sur 98 modèles évalués, dont 80 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU indique qu’un modèle répond correctement à une large proportion de questions couvrant des domaines variés, ce qui suggère une bonne maîtrise de connaissances générales et spécialisées en anglais. Dans la base considérée, le score médian atteint 82 %, tandis que le meilleur résultat recensé est celui de GPT-5 (OpenAI) à 92 %, ce qui montre un niveau de performance élevé sur ce benchmark.

L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles lorsque les protocoles ne sont pas vérifiés de manière indépendante. MMLU peut aussi souffrir de saturation lorsque de nombreux modèles atteignent des scores élevés, ainsi que de risques de contamination si des questions ont été vues pendant l’entraînement. Sa portée reste centrée sur des QCM en anglais, ce qui mesure imparfaitement d’autres compétences comme la production longue, l’interaction ou le raisonnement ouvert.


Sources des scores : llm-stats.