Mathématiques

MMMLU

MMMLU est un benchmark multilingue publié par OpenAI pour évaluer des modèles de langage sur des questions à choix multiple issues de MMLU et traduites professionnellement. Il transpose l’évaluation de la compréhension et des connaissances au-delà de l’anglais, en couvrant un large…

Le benchmark mesure la capacité d’un modèle à mobiliser des connaissances générales et spécialisées, à comprendre des énoncés dans plusieurs langues et à raisonner sur des tâches variées. Il sert ainsi de repère comparatif pour apprécier la robustesse multilingue des modèles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	généraliste, langage, mathématiques, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	multilingue (14 langues : arabe, bengali, allemand, espagnol, français, hindi, indonésien, italien, japonais, coréen, portugais, swahili, yoruba, chinois)
Taille du jeu	environ 15 908 questions par langue, soit environ 222 700 items traduits pour 14 langues
Année de publication	2024
Ressources	Site / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Mythos Preview	Anthropic	92,7 %	—	Auto-déclaré
2	Gemini 3.1 Pro Preview	Google	92,6 %	19 février 2026	Auto-déclaré
3	Gemini 3 Flash	Google	91,8 %	17 décembre 2025	Auto-déclaré
4	Gemini 3 Pro	Google	91,8 %	18 novembre 2025	Auto-déclaré
5	Claude Opus 4.7	Anthropic	91,5 %	12 mai 2026	Auto-déclaré
6	Claude Opus 4.6	Anthropic	91,1 %	7 avril 2026	Auto-déclaré
7	Claude Opus 4.5	Anthropic	90,8 %	24 novembre 2025	Auto-déclaré
8	Qwen3.7 Max	Qwen	90,3 %	19 mai 2026	Auto-déclaré
9	GPT-5.2	OpenAI	89,6 %	11 décembre 2025	Auto-déclaré
10	Claude Opus 4.1	Anthropic	89,5 %	5 août 2025	Auto-déclaré
11	Qwen3.6 Plus	Qwen	89,5 %	31 mars 2026	Auto-déclaré
12	Claude Sonnet 4.6	Anthropic	89,3 %	17 février 2026	Auto-déclaré
13	Claude Sonnet 4.5	Anthropic	89,1 %	29 septembre 2025	Auto-déclaré
14	Qwen3.7-Plus	Qwen	89,0 %	31 mai 2026	Auto-déclaré
15	Gemini 3.1 Flash-Lite	Google	88,9 %	3 mars 2026	Auto-déclaré
16	Claude Opus 4	Anthropic	88,8 %	22 mai 2025	Auto-déclaré
17	Qwen3.5-397B-A17B	Qwen	88,5 %	16 février 2026	Auto-déclaré
18	Gemma 4 31B	Google	88,4 %	2 avril 2026	Auto-déclaré
19	o1	OpenAI	87,7 %	17 décembre 2024	Auto-déclaré
20	GPT-4.1	OpenAI	87,3 %	14 avril 2025	Auto-déclaré

Classement établi sur 49 modèles évalués, dont 48 de grands éditeurs. Score médian de l'ensemble : 86,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMLU indique une forte aptitude à répondre correctement à des QCM couvrant de nombreux sujets dans plusieurs langues, ce qui combine compréhension linguistique, connaissances factuelles et raisonnement multitâche. Dans la base, le niveau médian élevé et le meilleur score à 93% suggèrent que les modèles les plus avancés maîtrisent largement ce format, mais aussi que le benchmark peut commencer à perdre en pouvoir discriminant au sommet du classement. La fiabilité doit être interprétée avec prudence, car les résultats sont majoritairement auto-déclarés par les éditeurs, sans garantie uniforme de protocole indépendant. Le caractère public du jeu accroît également le risque de contamination des données d’entraînement. Enfin, MMMLU reste centré sur des QCM traduits depuis MMLU, il ne mesure pas directement la génération longue, l’usage d’outils, l’interaction ou la résolution de tâches pratiques. Le classement met surtout en évidence la maturité des modèles généralistes multilingues, avec Claude Mythos Preview en tête parmi les modèles suivis.

Sources des scores : llm-stats.

MMMLU

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench