MMLU
MMLU, pour Massive Multitask Language Understanding, est un benchmark publié en 2020 par D. Hendrycks et al. Il évalue des modèles de langage au moyen de questions à choix multiple portant sur un large éventail de domaines, des sciences aux humanités, en passant par les sciences sociales…
MMLU, pour Massive Multitask Language Understanding, est un benchmark publié en 2020 par D. Hendrycks et al. Il évalue des modèles de langage au moyen de questions à choix multiple portant sur un large éventail de domaines, des sciences aux humanités, en passant par les sciences sociales et les domaines professionnels.
Le test sert à apprécier à la fois la compréhension linguistique, les connaissances factuelles et spécialisées, ainsi que la capacité à raisonner dans un contexte de QCM. Il reste l’un des repères généralistes utilisés pour comparer les performances de modèles sur des tâches de connaissance étendues.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | D. Hendrycks et al. |
| Capacités mesurées | finance, généraliste, santé, langage, juridique, mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | environ 15 900 questions, dont 14 042 questions de test, couvrant 57 sujets |
| Année de publication | 2020 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5 | OpenAI | 92,5 % | 7 août 2025 | Auto-déclaré |
| 2 | o1 | OpenAI | 91,8 % | 17 décembre 2024 | Auto-déclaré |
| 3 | GPT-5.4 | OpenAI | 90,8 % | 5 mars 2026 | Auto-déclaré |
| 4 | o1-preview | OpenAI | 90,8 % | 12 septembre 2024 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Thinking | Qwen | 90,6 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Sarvam-105B | sarvamai | 90,6 % | 6 mars 2026 | Auto-déclaré |
| 7 | Claude 3.5 Sonnet | Anthropic | 90,4 % | 22 octobre 2024 | Auto-déclaré |
| 8 | GPT-4.1 | OpenAI | 90,2 % | 14 avril 2025 | Auto-déclaré |
| 9 | Kimi K2 0905 | Moonshot AI | 90,2 % | 5 septembre 2025 | Auto-déclaré |
| 10 | GPT OSS 120B | OpenAI | 90,0 % | 5 août 2025 | Auto-déclaré |
| 11 | LongCat-Flash-Chat | Meituan | 89,7 % | 29 août 2025 | Auto-déclaré |
| 12 | Kimi K2 Instruct | Moonshot AI | 89,5 % | 11 juillet 2025 | Auto-déclaré |
| 13 | Kimi K2-Instruct-0905 | Moonshot AI | 89,5 % | 5 septembre 2025 | Auto-déclaré |
| 14 | MiMo-V2.5-Pro | Xiaomi | 89,4 % | 27 avril 2026 | Auto-déclaré |
| 15 | Qwen3 VL 235B A22B Instruct | Qwen | 88,8 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 32B Thinking | Qwen | 88,7 % | 22 septembre 2025 | Auto-déclaré |
| 17 | DeepSeek-V3 | DeepSeek | 88,5 % | 24 mars 2025 | Auto-déclaré |
| 18 | Qwen3 235B A22B | Qwen | 87,8 % | 25 juillet 2025 | Auto-déclaré |
| 19 | Kimi K2 Base | Moonshot AI | 87,8 % | 11 juillet 2025 | Auto-déclaré |
| 20 | Qwen3 VL 30B A3B Thinking | Qwen | 87,6 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 98 modèles évalués, dont 80 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMLU indique qu’un modèle répond correctement à une large proportion de questions couvrant des domaines variés, ce qui suggère une bonne maîtrise de connaissances générales et spécialisées en anglais. Dans la base considérée, le score médian atteint 82 %, tandis que le meilleur résultat recensé est celui de GPT-5 (OpenAI) à 92 %, ce qui montre un niveau de performance élevé sur ce benchmark.
L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles lorsque les protocoles ne sont pas vérifiés de manière indépendante. MMLU peut aussi souffrir de saturation lorsque de nombreux modèles atteignent des scores élevés, ainsi que de risques de contamination si des questions ont été vues pendant l’entraînement. Sa portée reste centrée sur des QCM en anglais, ce qui mesure imparfaitement d’autres compétences comme la production longue, l’interaction ou le raisonnement ouvert.
Sources des scores : llm-stats.