MMMU-Pro

MMMU-Pro est un benchmark public conçu par l’équipe MMMU, avec Xiang Yue, Tianyu Zheng et leurs co-auteurs, pour évaluer la compréhension et le raisonnement multimodaux multidisciplinaires. Il prolonge MMMU en rendant les questions moins accessibles par le seul texte et plus dépendantes…

MMMU-Pro est un benchmark public conçu par l’équipe MMMU, avec Xiang Yue, Tianyu Zheng et leurs co-auteurs, pour évaluer la compréhension et le raisonnement multimodaux multidisciplinaires. Il prolonge MMMU en rendant les questions moins accessibles par le seul texte et plus dépendantes de l’interprétation conjointe du texte et de l’image.

Le benchmark teste notamment des QCM aux options augmentées et un réglage vision-only, où la question est intégrée directement dans l’image. Son rôle est de mieux approcher des situations réelles d’usage, dans lesquelles un modèle doit extraire, relier et raisonner sur des informations visuelles et textuelles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkÉquipe MMMU (Xiang Yue, Tianyu Zheng et al.)
Capacités mesuréesCompréhension et raisonnement multimodaux multidisciplinaires (texte + image), y compris en entrée purement visuelle où la question est intégrée à l'image.
ModalitéMultimodal
Type de questionsQCM à options augmentées + réglage à entrée purement visuelle (vision-only)
Métrique d'évaluationExactitude
AccèsPublic
LanguesAnglais
Taille du jeuenviron 1 730 questions
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3.5 FlashGoogle83,6 %19 mai 2026Auto-déclaré
2GPT-5.5OpenAI83,2 %23 avril 2026Auto-déclaré
3Seed 2.1 Probytedance82,7 %24 juin 2026Auto-déclaré
4Seed 2.1 Turbobytedance82,2 %24 juin 2026Auto-déclaré
5GPT-5.4OpenAI81,2 %5 mars 2026Auto-déclaré
6Gemini 3 FlashGoogle81,2 %17 décembre 2025Auto-déclaré
7Gemini 3 ProGoogle81,0 %18 novembre 2025Auto-déclaré
8Gemini 3.1 Pro PreviewGoogle80,5 %19 février 2026Auto-déclaré
9Muse SparkMeta80,4 %8 avril 2026Auto-déclaré
10Kimi K2.6Moonshot AI80,1 %20 avril 2026Auto-déclaré
11GPT-5.2OpenAI79,5 %11 décembre 2025Auto-déclaré
12Qwen3.7-PlusQwen79,0 %31 mai 2026Auto-déclaré
13Qwen3.6 PlusQwen78,8 %31 mars 2026Auto-déclaré
14Kimi K2.5Moonshot AI78,5 %27 janvier 2026Auto-déclaré
15GPT-5OpenAI78,4 %7 août 2025Auto-déclaré
16MiniMax M3MiniMax78,1 %1 juin 2026Auto-déclaré
17MiMo-V2.5Xiaomi77,9 %22 avril 2026Auto-déclaré
18Claude Opus 4.6Anthropic77,3 %7 avril 2026Auto-déclaré
19Gemma 4 31BGoogle76,9 %2 avril 2026Auto-déclaré
20Qwen3.5-122B-A10BQwen76,9 %24 février 2026Auto-déclaré

Classement établi sur 60 modèles évalués, dont 53 de grands éditeurs. Score médian de l'ensemble : 71,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU-Pro indique une capacité solide à traiter des problèmes multimodaux variés, y compris lorsque l’information textuelle explicite est réduite ou déplacée dans l’image. Le benchmark est conçu pour être plus rigoureux que MMMU, avec un filtrage des questions répondables par le texte seul, des options de réponse augmentées et un mode vision-only. Cette conception vise à limiter les réussites fondées sur des indices superficiels et à mieux mesurer le raisonnement multimodal. Les scores de la base doivent toutefois être interprétés avec prudence, car ils sont majoritairement auto-déclarés par les éditeurs, ce qui peut introduire des différences de protocole ou de reproductibilité. Les limites habituelles demeurent aussi possibles : contamination des données d’entraînement, saturation progressive si les meilleurs modèles convergent, et portée restreinte à l’anglais et au format QCM. Le classement montre un niveau médian élevé, avec Gemini 3.5 Flash en tête, ce qui suggère une forte compétitivité des modèles multimodaux récents sur ce type d’évaluation.


Sources des scores : llm-stats.