MMMU (validation)

MMMU (validation) est le split de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il vise à tester des capacités de compréhension et de raisonnement multimodaux de niveau universitaire, dans des tâches associant…

MMMU (validation) est le split de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il vise à tester des capacités de compréhension et de raisonnement multimodaux de niveau universitaire, dans des tâches associant texte et image.

Le benchmark couvre des questions issues de disciplines variées et mobilise l’interprétation de diagrammes, graphiques, tableaux, cartes et autres supports visuels. Il sert à situer les modèles sur des tâches où la réponse dépend autant du contenu visuel que du raisonnement conceptuel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkXiang Yue et al.
Capacités mesuréesgénéraliste, santé, multimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM et questions ouvertes à réponse courte, avec contexte multimodal texte-image
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu900 questions pour le split validation ; environ 11 500 questions au total
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.5Anthropic80,7 %24 novembre 2025Auto-déclaré
2Claude Opus 4.1Anthropic77,1 %5 août 2025Auto-déclaré
3Claude Opus 4Anthropic76,5 %22 mai 2025Auto-déclaré
4Claude Haiku 4.5Anthropic73,2 %15 octobre 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 76,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMU (validation) indique une bonne capacité à combiner lecture d’images, compréhension du contexte textuel et raisonnement disciplinaire. Le classement disponible dans la base reste toutefois limité à 4 modèles, avec un score médian de 77 % et un meilleur résultat de 81 % pour Claude Opus 4.5 (Anthropic). Cet écart relativement resserré suggère que le benchmark distingue encore les modèles, mais avec un risque de saturation si les meilleurs systèmes continuent à progresser. La fiabilité doit aussi être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le caractère public du jeu peut accroître le risque de contamination dans les données d’entraînement ou d’évaluation. Enfin, la portée reste circonscrite à l’anglais, au split validation et à des questions multimodales universitaires, ce qui n’épuise pas l’évaluation des performances en contexte réel ou multilingue.


Sources des scores : llm-stats.