MMMU
MMMU, pour Massive Multi-discipline Multimodal Understanding, est un benchmark publié en 2023 par Xiang Yue et al. Il évalue des modèles multimodaux sur des questions de niveau universitaire combinant texte et images, issues d’examens, de quiz et de manuels.
MMMU, pour Massive Multi-discipline Multimodal Understanding, est un benchmark publié en 2023 par Xiang Yue et al. Il évalue des modèles multimodaux sur des questions de niveau universitaire combinant texte et images, issues d’examens, de quiz et de manuels.
Son objectif est de mesurer à la fois la compréhension multimodale, la mobilisation de connaissances multidisciplinaires et le raisonnement délibéré. Avec ses questions couvrant de grands domaines académiques, MMMU sert de test exigeant pour comparer les modèles capables d’interpréter conjointement des contenus visuels et textuels.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Xiang Yue et al. |
| Capacités mesurées | généraliste, santé, multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM et questions ouvertes à réponse courte, avec entrées multimodales texte-image |
| Métrique d'évaluation | accuracy |
| Langues | anglais |
| Taille du jeu | environ 11 500 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 86,0 % | 31 mars 2026 | Auto-déclaré |
| 2 | GPT-5.1 | OpenAI | 85,4 % | 13 novembre 2025 | Auto-déclaré |
| 3 | GPT-5.1 Instant | OpenAI | 85,4 % | 12 novembre 2025 | Auto-déclaré |
| 4 | GPT-5 | OpenAI | 84,2 % | 7 août 2025 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 83,9 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.6-27B | Qwen | 82,9 % | 21 avril 2026 | Auto-déclaré |
| 7 | o3 | OpenAI | 82,9 % | 16 avril 2025 | Auto-déclaré |
| 8 | Qwen3.5-27B | Qwen | 82,3 % | 24 février 2026 | Auto-déclaré |
| 9 | Gemini 2.5 Pro Preview 06-05 | 82,0 % | 5 juin 2025 | Auto-déclaré | |
| 10 | Qwen3.6-35B-A3B | Qwen | 81,7 % | 16 avril 2026 | Auto-déclaré |
| 11 | o4-mini | OpenAI | 81,6 % | 16 avril 2025 | Auto-déclaré |
| 12 | Qwen3.5-35B-A3B | Qwen | 81,4 % | 24 février 2026 | Auto-déclaré |
| 13 | Gemini 2.5 Flash | 79,7 % | 20 mai 2025 | Auto-déclaré | |
| 14 | Gemini 2.5 Pro | 79,6 % | 20 mai 2025 | Auto-déclaré | |
| 15 | Step3-VL-10B | StepFun | 78,1 % | 15 janvier 2026 | Auto-déclaré |
| 16 | Grok-3 | xAI | 78,0 % | 17 février 2025 | Auto-déclaré |
| 17 | o1 | OpenAI | 77,6 % | 17 décembre 2024 | Auto-déclaré |
| 18 | GPT-5.4 | OpenAI | 75,2 % | 5 mars 2026 | Auto-déclaré |
| 19 | Command A+ | cohere | 75,1 % | 20 mai 2026 | Auto-déclaré |
| 20 | Claude 3.7 Sonnet | Anthropic | 75,0 % | 24 février 2025 | Auto-déclaré |
Classement établi sur 61 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 70,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMMU indique qu’un modèle parvient à associer des indices visuels et textuels, à mobiliser des connaissances universitaires et à raisonner sur des questions parfois ouvertes, au-delà d’une simple reconnaissance d’image. La métrique repose sur l’accuracy, ce qui facilite la comparaison, mais la fiabilité doit être interprétée avec prudence car les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian de 70% sur les modèles évalués montre que le benchmark reste discriminant, tandis que le meilleur score recensé, Qwen3.6 Plus à 86%, suggère une avance nette sans indiquer une maîtrise totale. Les principales limites tiennent à la portée anglophone du jeu, à son ancrage dans des contenus universitaires, et au risque général de contamination lié à des questions dérivées d’examens, de quiz et de manuels. Le classement révèle surtout quels modèles combinent le mieux vision, texte et connaissances académiques dans ce cadre précis.
Sources des scores : llm-stats.