Vision & multimodal

MMMU-Pro

MMMU-Pro est un benchmark public conçu par l’équipe MMMU, avec Xiang Yue, Tianyu Zheng et leurs co-auteurs, pour évaluer la compréhension et le raisonnement multimodaux multidisciplinaires. Il prolonge MMMU en rendant les questions moins accessibles par le seul texte et plus dépendantes…

Le benchmark teste notamment des QCM aux options augmentées et un réglage vision-only, où la question est intégrée directement dans l’image. Son rôle est de mieux approcher des situations réelles d’usage, dans lesquelles un modèle doit extraire, relier et raisonner sur des informations visuelles et textuelles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Équipe MMMU (Xiang Yue, Tianyu Zheng et al.)
Capacités mesurées	Compréhension et raisonnement multimodaux multidisciplinaires (texte + image), y compris en entrée purement visuelle où la question est intégrée à l'image.
Modalité	Multimodal
Type de questions	QCM à options augmentées + réglage à entrée purement visuelle (vision-only)
Métrique d'évaluation	Exactitude
Accès	Public
Langues	Anglais
Taille du jeu	environ 1 730 questions
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3.5 Flash	Google	83,6 %	19 mai 2026	Auto-déclaré
2	GPT-5.5	OpenAI	83,2 %	23 avril 2026	Auto-déclaré
3	Seed 2.1 Pro	bytedance	82,7 %	24 juin 2026	Auto-déclaré
4	Seed 2.1 Turbo	bytedance	82,2 %	24 juin 2026	Auto-déclaré
5	GPT-5.4	OpenAI	81,2 %	5 mars 2026	Auto-déclaré
6	Gemini 3 Flash	Google	81,2 %	17 décembre 2025	Auto-déclaré
7	Gemini 3 Pro	Google	81,0 %	18 novembre 2025	Auto-déclaré
8	Gemini 3.1 Pro Preview	Google	80,5 %	19 février 2026	Auto-déclaré
9	Muse Spark	Meta	80,4 %	8 avril 2026	Auto-déclaré
10	Kimi K2.6	Moonshot AI	80,1 %	20 avril 2026	Auto-déclaré
11	GPT-5.2	OpenAI	79,5 %	11 décembre 2025	Auto-déclaré
12	Qwen3.7-Plus	Qwen	79,0 %	31 mai 2026	Auto-déclaré
13	Qwen3.6 Plus	Qwen	78,8 %	31 mars 2026	Auto-déclaré
14	Kimi K2.5	Moonshot AI	78,5 %	27 janvier 2026	Auto-déclaré
15	GPT-5	OpenAI	78,4 %	7 août 2025	Auto-déclaré
16	MiniMax M3	MiniMax	78,1 %	1 juin 2026	Auto-déclaré
17	MiMo-V2.5	Xiaomi	77,9 %	22 avril 2026	Auto-déclaré
18	Claude Opus 4.6	Anthropic	77,3 %	7 avril 2026	Auto-déclaré
19	Gemma 4 31B	Google	76,9 %	2 avril 2026	Auto-déclaré
20	Qwen3.5-122B-A10B	Qwen	76,9 %	24 février 2026	Auto-déclaré

Classement établi sur 60 modèles évalués, dont 53 de grands éditeurs. Score médian de l'ensemble : 71,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU-Pro indique une capacité solide à traiter des problèmes multimodaux variés, y compris lorsque l’information textuelle explicite est réduite ou déplacée dans l’image. Le benchmark est conçu pour être plus rigoureux que MMMU, avec un filtrage des questions répondables par le texte seul, des options de réponse augmentées et un mode vision-only. Cette conception vise à limiter les réussites fondées sur des indices superficiels et à mieux mesurer le raisonnement multimodal. Les scores de la base doivent toutefois être interprétés avec prudence, car ils sont majoritairement auto-déclarés par les éditeurs, ce qui peut introduire des différences de protocole ou de reproductibilité. Les limites habituelles demeurent aussi possibles : contamination des données d’entraînement, saturation progressive si les meilleurs modèles convergent, et portée restreinte à l’anglais et au format QCM. Le classement montre un niveau médian élevé, avec Gemini 3.5 Flash en tête, ce qui suggère une forte compétitivité des modèles multimodaux récents sur ce type d’évaluation.

Sources des scores : llm-stats.

MMMU-Pro

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench