MMMLU
MMMLU est un benchmark multilingue publié par OpenAI pour évaluer des modèles de langage sur des questions à choix multiple issues de MMLU et traduites professionnellement. Il transpose l’évaluation de la compréhension et des connaissances au-delà de l’anglais, en couvrant un large…
MMMLU est un benchmark multilingue publié par OpenAI pour évaluer des modèles de langage sur des questions à choix multiple issues de MMLU et traduites professionnellement. Il transpose l’évaluation de la compréhension et des connaissances au-delà de l’anglais, en couvrant un large éventail de domaines académiques et professionnels.
Le benchmark mesure la capacité d’un modèle à mobiliser des connaissances générales et spécialisées, à comprendre des énoncés dans plusieurs langues et à raisonner sur des tâches variées. Il sert ainsi de repère comparatif pour apprécier la robustesse multilingue des modèles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | généraliste, langage, mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | multilingue (14 langues : arabe, bengali, allemand, espagnol, français, hindi, indonésien, italien, japonais, coréen, portugais, swahili, yoruba, chinois) |
| Taille du jeu | environ 15 908 questions par langue, soit environ 222 700 items traduits pour 14 langues |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 92,7 % | — | Auto-déclaré |
| 2 | Gemini 3.1 Pro Preview | 92,6 % | 19 février 2026 | Auto-déclaré | |
| 3 | Gemini 3 Flash | 91,8 % | 17 décembre 2025 | Auto-déclaré | |
| 4 | Gemini 3 Pro | 91,8 % | 18 novembre 2025 | Auto-déclaré | |
| 5 | Claude Opus 4.7 | Anthropic | 91,5 % | 12 mai 2026 | Auto-déclaré |
| 6 | Claude Opus 4.6 | Anthropic | 91,1 % | 7 avril 2026 | Auto-déclaré |
| 7 | Claude Opus 4.5 | Anthropic | 90,8 % | 24 novembre 2025 | Auto-déclaré |
| 8 | Qwen3.7 Max | Qwen | 90,3 % | 19 mai 2026 | Auto-déclaré |
| 9 | GPT-5.2 | OpenAI | 89,6 % | 11 décembre 2025 | Auto-déclaré |
| 10 | Claude Opus 4.1 | Anthropic | 89,5 % | 5 août 2025 | Auto-déclaré |
| 11 | Qwen3.6 Plus | Qwen | 89,5 % | 31 mars 2026 | Auto-déclaré |
| 12 | Claude Sonnet 4.6 | Anthropic | 89,3 % | 17 février 2026 | Auto-déclaré |
| 13 | Claude Sonnet 4.5 | Anthropic | 89,1 % | 29 septembre 2025 | Auto-déclaré |
| 14 | Qwen3.7-Plus | Qwen | 89,0 % | 31 mai 2026 | Auto-déclaré |
| 15 | Gemini 3.1 Flash-Lite | 88,9 % | 3 mars 2026 | Auto-déclaré | |
| 16 | Claude Opus 4 | Anthropic | 88,8 % | 22 mai 2025 | Auto-déclaré |
| 17 | Qwen3.5-397B-A17B | Qwen | 88,5 % | 16 février 2026 | Auto-déclaré |
| 18 | Gemma 4 31B | 88,4 % | 2 avril 2026 | Auto-déclaré | |
| 19 | o1 | OpenAI | 87,7 % | 17 décembre 2024 | Auto-déclaré |
| 20 | GPT-4.1 | OpenAI | 87,3 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 49 modèles évalués, dont 48 de grands éditeurs. Score médian de l'ensemble : 86,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMMLU indique une forte aptitude à répondre correctement à des QCM couvrant de nombreux sujets dans plusieurs langues, ce qui combine compréhension linguistique, connaissances factuelles et raisonnement multitâche. Dans la base, le niveau médian élevé et le meilleur score à 93% suggèrent que les modèles les plus avancés maîtrisent largement ce format, mais aussi que le benchmark peut commencer à perdre en pouvoir discriminant au sommet du classement. La fiabilité doit être interprétée avec prudence, car les résultats sont majoritairement auto-déclarés par les éditeurs, sans garantie uniforme de protocole indépendant. Le caractère public du jeu accroît également le risque de contamination des données d’entraînement. Enfin, MMMLU reste centré sur des QCM traduits depuis MMLU, il ne mesure pas directement la génération longue, l’usage d’outils, l’interaction ou la résolution de tâches pratiques. Le classement met surtout en évidence la maturité des modèles généralistes multilingues, avec Claude Mythos Preview en tête parmi les modèles suivis.
Sources des scores : llm-stats.