MMMU (val)

MMMU (val) est le jeu de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il évalue des modèles capables de traiter conjointement du texte et des supports visuels variés, comme des images, diagrammes, tableaux,…

MMMU (val) est le jeu de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il évalue des modèles capables de traiter conjointement du texte et des supports visuels variés, comme des images, diagrammes, tableaux, cartes ou graphiques.

Le benchmark cible une compréhension multimodale et un raisonnement de niveau universitaire, dans un éventail large de disciplines. Son intérêt est de tester la capacité d’un modèle à relier information visuelle, énoncé textuel et connaissances spécialisées, au-delà de la simple reconnaissance d’image.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkXiang Yue et al.
Capacités mesuréesgénéraliste, santé, multimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM et questions ouvertes à réponse courte, avec énoncés multimodaux incluant des images, diagrammes, tableaux, cartes ou graphiques
Métrique d'évaluationaccuracy
AccèsPublic
LicenceCC-BY-NC-4.0
Languesanglais
Taille du jeu900 questions de validation; environ 11 500 questions au total
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 32B ThinkingQwen78,1 %22 septembre 2025Auto-déclaré
2Qwen3 VL 30B A3B ThinkingQwen76,0 %22 septembre 2025Auto-déclaré
3Qwen3 VL 32B InstructQwen76,0 %22 septembre 2025Auto-déclaré
4Qwen3 VL 30B A3B InstructQwen74,2 %22 septembre 2025Auto-déclaré
5Qwen3 VL 8B ThinkingQwen74,1 %22 septembre 2025Auto-déclaré
6Qwen3 VL 4B ThinkingQwen70,8 %22 septembre 2025Auto-déclaré
7Qwen3 VL 8B InstructQwen69,6 %22 septembre 2025Auto-déclaré
8Qwen3 VL 4B InstructQwen67,4 %22 septembre 2025Auto-déclaré
9Gemma 3 27BGoogle64,9 %12 mars 2025Auto-déclaré
10Gemma 3 12BGoogle59,6 %12 mars 2025Auto-déclaré
11Gemma 3 4BGoogle48,8 %12 mars 2025Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 70,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU (val) indique une bonne capacité à résoudre des questions universitaires multimodales, en combinant interprétation visuelle, compréhension du texte et raisonnement disciplinaire. La métrique utilisée est l’accuracy, ce qui rend le classement lisible, mais ne détaille pas les types d’erreurs ni la robustesse selon les sous-domaines. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des repères comparatifs plutôt que comme des mesures strictement auditées. Le score médian de 71% et le meilleur résultat, 78% pour Qwen3 VL 32B Thinking, suggèrent un benchmark encore discriminant entre modèles évalués, sans saturation apparente complète. Ses limites tiennent à sa portée anglophone, au format centré sur des questions académiques, ainsi qu’au risque général de contamination lorsque des jeux publics sont utilisés pour comparer des modèles récents. Le classement met surtout en évidence les modèles les plus solides sur le raisonnement multimodal spécialisé.


Sources des scores : llm-stats.