MMMLU

MMMLU est un benchmark multilingue publié par OpenAI pour évaluer des modèles de langage sur des questions à choix multiple issues de MMLU et traduites professionnellement. Il transpose l’évaluation de la compréhension et des connaissances au-delà de l’anglais, en couvrant un large…

MMMLU est un benchmark multilingue publié par OpenAI pour évaluer des modèles de langage sur des questions à choix multiple issues de MMLU et traduites professionnellement. Il transpose l’évaluation de la compréhension et des connaissances au-delà de l’anglais, en couvrant un large éventail de domaines académiques et professionnels.

Le benchmark mesure la capacité d’un modèle à mobiliser des connaissances générales et spécialisées, à comprendre des énoncés dans plusieurs langues et à raisonner sur des tâches variées. Il sert ainsi de repère comparatif pour apprécier la robustesse multilingue des modèles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesgénéraliste, langage, mathématiques, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesmultilingue (14 langues : arabe, bengali, allemand, espagnol, français, hindi, indonésien, italien, japonais, coréen, portugais, swahili, yoruba, chinois)
Taille du jeuenviron 15 908 questions par langue, soit environ 222 700 items traduits pour 14 langues
Année de publication2024
RessourcesSite / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Mythos PreviewAnthropic92,7 %Auto-déclaré
2Gemini 3.1 Pro PreviewGoogle92,6 %19 février 2026Auto-déclaré
3Gemini 3 FlashGoogle91,8 %17 décembre 2025Auto-déclaré
4Gemini 3 ProGoogle91,8 %18 novembre 2025Auto-déclaré
5Claude Opus 4.7Anthropic91,5 %12 mai 2026Auto-déclaré
6Claude Opus 4.6Anthropic91,1 %7 avril 2026Auto-déclaré
7Claude Opus 4.5Anthropic90,8 %24 novembre 2025Auto-déclaré
8Qwen3.7 MaxQwen90,3 %19 mai 2026Auto-déclaré
9GPT-5.2OpenAI89,6 %11 décembre 2025Auto-déclaré
10Claude Opus 4.1Anthropic89,5 %5 août 2025Auto-déclaré
11Qwen3.6 PlusQwen89,5 %31 mars 2026Auto-déclaré
12Claude Sonnet 4.6Anthropic89,3 %17 février 2026Auto-déclaré
13Claude Sonnet 4.5Anthropic89,1 %29 septembre 2025Auto-déclaré
14Qwen3.7-PlusQwen89,0 %31 mai 2026Auto-déclaré
15Gemini 3.1 Flash-LiteGoogle88,9 %3 mars 2026Auto-déclaré
16Claude Opus 4Anthropic88,8 %22 mai 2025Auto-déclaré
17Qwen3.5-397B-A17BQwen88,5 %16 février 2026Auto-déclaré
18Gemma 4 31BGoogle88,4 %2 avril 2026Auto-déclaré
19o1OpenAI87,7 %17 décembre 2024Auto-déclaré
20GPT-4.1OpenAI87,3 %14 avril 2025Auto-déclaré

Classement établi sur 49 modèles évalués, dont 48 de grands éditeurs. Score médian de l'ensemble : 86,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMLU indique une forte aptitude à répondre correctement à des QCM couvrant de nombreux sujets dans plusieurs langues, ce qui combine compréhension linguistique, connaissances factuelles et raisonnement multitâche. Dans la base, le niveau médian élevé et le meilleur score à 93% suggèrent que les modèles les plus avancés maîtrisent largement ce format, mais aussi que le benchmark peut commencer à perdre en pouvoir discriminant au sommet du classement. La fiabilité doit être interprétée avec prudence, car les résultats sont majoritairement auto-déclarés par les éditeurs, sans garantie uniforme de protocole indépendant. Le caractère public du jeu accroît également le risque de contamination des données d’entraînement. Enfin, MMMLU reste centré sur des QCM traduits depuis MMLU, il ne mesure pas directement la génération longue, l’usage d’outils, l’interaction ou la résolution de tâches pratiques. Le classement met surtout en évidence la maturité des modèles généralistes multilingues, avec Claude Mythos Preview en tête parmi les modèles suivis.


Sources des scores : llm-stats.