Mathématiques

MMLU

MMLU, pour Massive Multitask Language Understanding, est un benchmark publié en 2020 par D. Hendrycks et al. Il évalue des modèles de langage au moyen de questions à choix multiple portant sur un large éventail de domaines, des sciences aux humanités, en passant par les sciences sociales…

Le test sert à apprécier à la fois la compréhension linguistique, les connaissances factuelles et spécialisées, ainsi que la capacité à raisonner dans un contexte de QCM. Il reste l’un des repères généralistes utilisés pour comparer les performances de modèles sur des tâches de connaissance étendues.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	D. Hendrycks et al.
Capacités mesurées	finance, généraliste, santé, langage, juridique, mathématiques, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	environ 15 900 questions, dont 14 042 questions de test, couvrant 57 sujets
Année de publication	2020
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5	OpenAI	92,5 %	7 août 2025	Auto-déclaré
2	o1	OpenAI	91,8 %	17 décembre 2024	Auto-déclaré
3	GPT-5.4	OpenAI	90,8 %	5 mars 2026	Auto-déclaré
4	o1-preview	OpenAI	90,8 %	12 septembre 2024	Auto-déclaré
5	Qwen3 VL 235B A22B Thinking	Qwen	90,6 %	22 septembre 2025	Auto-déclaré
6	Sarvam-105B	sarvamai	90,6 %	6 mars 2026	Auto-déclaré
7	Claude 3.5 Sonnet	Anthropic	90,4 %	22 octobre 2024	Auto-déclaré
8	GPT-4.1	OpenAI	90,2 %	14 avril 2025	Auto-déclaré
9	Kimi K2 0905	Moonshot AI	90,2 %	5 septembre 2025	Auto-déclaré
10	GPT OSS 120B	OpenAI	90,0 %	5 août 2025	Auto-déclaré
11	LongCat-Flash-Chat	Meituan	89,7 %	29 août 2025	Auto-déclaré
12	Kimi K2 Instruct	Moonshot AI	89,5 %	11 juillet 2025	Auto-déclaré
13	Kimi K2-Instruct-0905	Moonshot AI	89,5 %	5 septembre 2025	Auto-déclaré
14	MiMo-V2.5-Pro	Xiaomi	89,4 %	27 avril 2026	Auto-déclaré
15	Qwen3 VL 235B A22B Instruct	Qwen	88,8 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 32B Thinking	Qwen	88,7 %	22 septembre 2025	Auto-déclaré
17	DeepSeek-V3	DeepSeek	88,5 %	24 mars 2025	Auto-déclaré
18	Qwen3 235B A22B	Qwen	87,8 %	25 juillet 2025	Auto-déclaré
19	Kimi K2 Base	Moonshot AI	87,8 %	11 juillet 2025	Auto-déclaré
20	Qwen3 VL 30B A3B Thinking	Qwen	87,6 %	22 septembre 2025	Auto-déclaré

Classement établi sur 98 modèles évalués, dont 80 de grands éditeurs. Score médian de l'ensemble : 81,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU indique qu’un modèle répond correctement à une large proportion de questions couvrant des domaines variés, ce qui suggère une bonne maîtrise de connaissances générales et spécialisées en anglais. Dans la base considérée, le score médian atteint 82 %, tandis que le meilleur résultat recensé est celui de GPT-5 (OpenAI) à 92 %, ce qui montre un niveau de performance élevé sur ce benchmark.

L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles lorsque les protocoles ne sont pas vérifiés de manière indépendante. MMLU peut aussi souffrir de saturation lorsque de nombreux modèles atteignent des scores élevés, ainsi que de risques de contamination si des questions ont été vues pendant l’entraînement. Sa portée reste centrée sur des QCM en anglais, ce qui mesure imparfaitement d’autres compétences comme la production longue, l’interaction ou le raisonnement ouvert.

Sources des scores : llm-stats.

MMLU

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench