Vision & multimodal

MMMU

MMMU, pour Massive Multi-discipline Multimodal Understanding, est un benchmark publié en 2023 par Xiang Yue et al. Il évalue des modèles multimodaux sur des questions de niveau universitaire combinant texte et images, issues d’examens, de quiz et de manuels.

Son objectif est de mesurer à la fois la compréhension multimodale, la mobilisation de connaissances multidisciplinaires et le raisonnement délibéré. Avec ses questions couvrant de grands domaines académiques, MMMU sert de test exigeant pour comparer les modèles capables d’interpréter conjointement des contenus visuels et textuels.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Xiang Yue et al.
Capacités mesurées	généraliste, santé, multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM et questions ouvertes à réponse courte, avec entrées multimodales texte-image
Métrique d'évaluation	accuracy
Langues	anglais
Taille du jeu	environ 11 500 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	86,0 %	31 mars 2026	Auto-déclaré
2	GPT-5.1	OpenAI	85,4 %	13 novembre 2025	Auto-déclaré
3	GPT-5.1 Instant	OpenAI	85,4 %	12 novembre 2025	Auto-déclaré
4	GPT-5	OpenAI	84,2 %	7 août 2025	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	83,9 %	24 février 2026	Auto-déclaré
6	Qwen3.6-27B	Qwen	82,9 %	21 avril 2026	Auto-déclaré
7	o3	OpenAI	82,9 %	16 avril 2025	Auto-déclaré
8	Qwen3.5-27B	Qwen	82,3 %	24 février 2026	Auto-déclaré
9	Gemini 2.5 Pro Preview 06-05	Google	82,0 %	5 juin 2025	Auto-déclaré
10	Qwen3.6-35B-A3B	Qwen	81,7 %	16 avril 2026	Auto-déclaré
11	o4-mini	OpenAI	81,6 %	16 avril 2025	Auto-déclaré
12	Qwen3.5-35B-A3B	Qwen	81,4 %	24 février 2026	Auto-déclaré
13	Gemini 2.5 Flash	Google	79,7 %	20 mai 2025	Auto-déclaré
14	Gemini 2.5 Pro	Google	79,6 %	20 mai 2025	Auto-déclaré
15	Step3-VL-10B	StepFun	78,1 %	15 janvier 2026	Auto-déclaré
16	Grok-3	xAI	78,0 %	17 février 2025	Auto-déclaré
17	o1	OpenAI	77,6 %	17 décembre 2024	Auto-déclaré
18	GPT-5.4	OpenAI	75,2 %	5 mars 2026	Auto-déclaré
19	Command A+	cohere	75,1 %	20 mai 2026	Auto-déclaré
20	Claude 3.7 Sonnet	Anthropic	75,0 %	24 février 2025	Auto-déclaré

Classement établi sur 61 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 70,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU indique qu’un modèle parvient à associer des indices visuels et textuels, à mobiliser des connaissances universitaires et à raisonner sur des questions parfois ouvertes, au-delà d’une simple reconnaissance d’image. La métrique repose sur l’accuracy, ce qui facilite la comparaison, mais la fiabilité doit être interprétée avec prudence car les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian de 70% sur les modèles évalués montre que le benchmark reste discriminant, tandis que le meilleur score recensé, Qwen3.6 Plus à 86%, suggère une avance nette sans indiquer une maîtrise totale. Les principales limites tiennent à la portée anglophone du jeu, à son ancrage dans des contenus universitaires, et au risque général de contamination lié à des questions dérivées d’examens, de quiz et de manuels. Le classement révèle surtout quels modèles combinent le mieux vision, texte et connaissances académiques dans ce cadre précis.

Sources des scores : llm-stats.

MMMU

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench