MMMU

MMMU, pour Massive Multi-discipline Multimodal Understanding, est un benchmark publié en 2023 par Xiang Yue et al. Il évalue des modèles multimodaux sur des questions de niveau universitaire combinant texte et images, issues d’examens, de quiz et de manuels.

MMMU, pour Massive Multi-discipline Multimodal Understanding, est un benchmark publié en 2023 par Xiang Yue et al. Il évalue des modèles multimodaux sur des questions de niveau universitaire combinant texte et images, issues d’examens, de quiz et de manuels.

Son objectif est de mesurer à la fois la compréhension multimodale, la mobilisation de connaissances multidisciplinaires et le raisonnement délibéré. Avec ses questions couvrant de grands domaines académiques, MMMU sert de test exigeant pour comparer les modèles capables d’interpréter conjointement des contenus visuels et textuels.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkXiang Yue et al.
Capacités mesuréesgénéraliste, santé, multimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM et questions ouvertes à réponse courte, avec entrées multimodales texte-image
Métrique d'évaluationaccuracy
Languesanglais
Taille du jeuenviron 11 500 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6 PlusQwen86,0 %31 mars 2026Auto-déclaré
2GPT-5.1OpenAI85,4 %13 novembre 2025Auto-déclaré
3GPT-5.1 InstantOpenAI85,4 %12 novembre 2025Auto-déclaré
4GPT-5OpenAI84,2 %7 août 2025Auto-déclaré
5Qwen3.5-122B-A10BQwen83,9 %24 février 2026Auto-déclaré
6Qwen3.6-27BQwen82,9 %21 avril 2026Auto-déclaré
7o3OpenAI82,9 %16 avril 2025Auto-déclaré
8Qwen3.5-27BQwen82,3 %24 février 2026Auto-déclaré
9Gemini 2.5 Pro Preview 06-05Google82,0 %5 juin 2025Auto-déclaré
10Qwen3.6-35B-A3BQwen81,7 %16 avril 2026Auto-déclaré
11o4-miniOpenAI81,6 %16 avril 2025Auto-déclaré
12Qwen3.5-35B-A3BQwen81,4 %24 février 2026Auto-déclaré
13Gemini 2.5 FlashGoogle79,7 %20 mai 2025Auto-déclaré
14Gemini 2.5 ProGoogle79,6 %20 mai 2025Auto-déclaré
15Step3-VL-10BStepFun78,1 %15 janvier 2026Auto-déclaré
16Grok-3xAI78,0 %17 février 2025Auto-déclaré
17o1OpenAI77,6 %17 décembre 2024Auto-déclaré
18GPT-5.4OpenAI75,2 %5 mars 2026Auto-déclaré
19Command A+cohere75,1 %20 mai 2026Auto-déclaré
20Claude 3.7 SonnetAnthropic75,0 %24 février 2025Auto-déclaré

Classement établi sur 61 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 70,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU indique qu’un modèle parvient à associer des indices visuels et textuels, à mobiliser des connaissances universitaires et à raisonner sur des questions parfois ouvertes, au-delà d’une simple reconnaissance d’image. La métrique repose sur l’accuracy, ce qui facilite la comparaison, mais la fiabilité doit être interprétée avec prudence car les scores de la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian de 70% sur les modèles évalués montre que le benchmark reste discriminant, tandis que le meilleur score recensé, Qwen3.6 Plus à 86%, suggère une avance nette sans indiquer une maîtrise totale. Les principales limites tiennent à la portée anglophone du jeu, à son ancrage dans des contenus universitaires, et au risque général de contamination lié à des questions dérivées d’examens, de quiz et de manuels. Le classement révèle surtout quels modèles combinent le mieux vision, texte et connaissances académiques dans ce cadre précis.


Sources des scores : llm-stats.