Vision & multimodal

MMMU (validation)

MMMU (validation) est le split de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il vise à tester des capacités de compréhension et de raisonnement multimodaux de niveau universitaire, dans des tâches associant…

Le benchmark couvre des questions issues de disciplines variées et mobilise l’interprétation de diagrammes, graphiques, tableaux, cartes et autres supports visuels. Il sert à situer les modèles sur des tâches où la réponse dépend autant du contenu visuel que du raisonnement conceptuel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Xiang Yue et al.
Capacités mesurées	généraliste, santé, multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM et questions ouvertes à réponse courte, avec contexte multimodal texte-image
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	900 questions pour le split validation ; environ 11 500 questions au total
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.5	Anthropic	80,7 %	24 novembre 2025	Auto-déclaré
2	Claude Opus 4.1	Anthropic	77,1 %	5 août 2025	Auto-déclaré
3	Claude Opus 4	Anthropic	76,5 %	22 mai 2025	Auto-déclaré
4	Claude Haiku 4.5	Anthropic	73,2 %	15 octobre 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 76,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU (validation) indique une bonne capacité à combiner lecture d’images, compréhension du contexte textuel et raisonnement disciplinaire. Le classement disponible dans la base reste toutefois limité à 4 modèles, avec un score médian de 77 % et un meilleur résultat de 81 % pour Claude Opus 4.5 (Anthropic). Cet écart relativement resserré suggère que le benchmark distingue encore les modèles, mais avec un risque de saturation si les meilleurs systèmes continuent à progresser. La fiabilité doit aussi être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le caractère public du jeu peut accroître le risque de contamination dans les données d’entraînement ou d’évaluation. Enfin, la portée reste circonscrite à l’anglais, au split validation et à des questions multimodales universitaires, ce qui n’épuise pas l’évaluation des performances en contexte réel ou multilingue.

Sources des scores : llm-stats.

MMMU (validation)

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23