MMMU (val)
MMMU (val) est le jeu de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il évalue des modèles capables de traiter conjointement du texte et des supports visuels variés, comme des images, diagrammes, tableaux,…
MMMU (val) est le jeu de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il évalue des modèles capables de traiter conjointement du texte et des supports visuels variés, comme des images, diagrammes, tableaux, cartes ou graphiques.
Le benchmark cible une compréhension multimodale et un raisonnement de niveau universitaire, dans un éventail large de disciplines. Son intérêt est de tester la capacité d’un modèle à relier information visuelle, énoncé textuel et connaissances spécialisées, au-delà de la simple reconnaissance d’image.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Xiang Yue et al. |
| Capacités mesurées | généraliste, santé, multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM et questions ouvertes à réponse courte, avec énoncés multimodaux incluant des images, diagrammes, tableaux, cartes ou graphiques |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | CC-BY-NC-4.0 |
| Langues | anglais |
| Taille du jeu | 900 questions de validation; environ 11 500 questions au total |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 32B Thinking | Qwen | 78,1 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 30B A3B Thinking | Qwen | 76,0 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 32B Instruct | Qwen | 76,0 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 30B A3B Instruct | Qwen | 74,2 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 8B Thinking | Qwen | 74,1 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 4B Thinking | Qwen | 70,8 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 8B Instruct | Qwen | 69,6 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 4B Instruct | Qwen | 67,4 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Gemma 3 27B | 64,9 % | 12 mars 2025 | Auto-déclaré | |
| 10 | Gemma 3 12B | 59,6 % | 12 mars 2025 | Auto-déclaré | |
| 11 | Gemma 3 4B | 48,8 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 70,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMMU (val) indique une bonne capacité à résoudre des questions universitaires multimodales, en combinant interprétation visuelle, compréhension du texte et raisonnement disciplinaire. La métrique utilisée est l’accuracy, ce qui rend le classement lisible, mais ne détaille pas les types d’erreurs ni la robustesse selon les sous-domaines. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les lire comme des repères comparatifs plutôt que comme des mesures strictement auditées. Le score médian de 71% et le meilleur résultat, 78% pour Qwen3 VL 32B Thinking, suggèrent un benchmark encore discriminant entre modèles évalués, sans saturation apparente complète. Ses limites tiennent à sa portée anglophone, au format centré sur des questions académiques, ainsi qu’au risque général de contamination lorsque des jeux publics sont utilisés pour comparer des modèles récents. Le classement met surtout en évidence les modèles les plus solides sur le raisonnement multimodal spécialisé.
Sources des scores : llm-stats.