Vision & multimodal

MMMU (val)

MMMU (val) est le jeu de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il évalue des modèles capables de traiter conjointement du texte et des supports visuels variés, comme des images, diagrammes, tableaux,…

Le benchmark cible une compréhension multimodale et un raisonnement de niveau universitaire, dans un éventail large de disciplines. Son intérêt est de tester la capacité d’un modèle à relier information visuelle, énoncé textuel et connaissances spécialisées, au-delà de la simple reconnaissance d’image.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Xiang Yue et al.
Capacités mesurées	généraliste, santé, multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM et questions ouvertes à réponse courte, avec énoncés multimodaux incluant des images, diagrammes, tableaux, cartes ou graphiques
Métrique d'évaluation	accuracy
Accès	Public
Licence	CC-BY-NC-4.0
Langues	anglais
Taille du jeu	900 questions de validation; environ 11 500 questions au total
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 32B Thinking	Qwen	78,1 %	22 septembre 2025	Auto-déclaré
2	Qwen3 VL 30B A3B Thinking	Qwen	76,0 %	22 septembre 2025	Auto-déclaré
3	Qwen3 VL 32B Instruct	Qwen	76,0 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 30B A3B Instruct	Qwen	74,2 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 8B Thinking	Qwen	74,1 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 4B Thinking	Qwen	70,8 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 8B Instruct	Qwen	69,6 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 4B Instruct	Qwen	67,4 %	22 septembre 2025	Auto-déclaré
9	Gemma 3 27B	Google	64,9 %	12 mars 2025	Auto-déclaré
10	Gemma 3 12B	Google	59,6 %	12 mars 2025	Auto-déclaré
11	Gemma 3 4B	Google	48,8 %	12 mars 2025	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 70,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU (val) indique une bonne capacité à résoudre des questions universitaires multimodales, en combinant interprétation visuelle, compréhension du texte et raisonnement disciplinaire. La métrique utilisée est l’accuracy, ce qui rend le classement lisible, mais ne détaille pas les types d’erreurs ni la robustesse selon les sous-domaines. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des repères comparatifs plutôt que comme des mesures strictement auditées. Le score médian de 71% et le meilleur résultat, 78% pour Qwen3 VL 32B Thinking, suggèrent un benchmark encore discriminant entre modèles évalués, sans saturation apparente complète. Ses limites tiennent à sa portée anglophone, au format centré sur des questions académiques, ainsi qu’au risque général de contamination lorsque des jeux publics sont utilisés pour comparer des modèles récents. Le classement met surtout en évidence les modèles les plus solides sur le raisonnement multimodal spécialisé.

Sources des scores : llm-stats.

MMMU (val)

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench