MMMU (validation)
MMMU (validation) est le split de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il vise à tester des capacités de compréhension et de raisonnement multimodaux de niveau universitaire, dans des tâches associant…
MMMU (validation) est le split de validation du benchmark Massive Multi-discipline Multimodal Understanding and Reasoning, publié en 2023 par Xiang Yue et al. Il vise à tester des capacités de compréhension et de raisonnement multimodaux de niveau universitaire, dans des tâches associant texte et image.
Le benchmark couvre des questions issues de disciplines variées et mobilise l’interprétation de diagrammes, graphiques, tableaux, cartes et autres supports visuels. Il sert à situer les modèles sur des tâches où la réponse dépend autant du contenu visuel que du raisonnement conceptuel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Xiang Yue et al. |
| Capacités mesurées | généraliste, santé, multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM et questions ouvertes à réponse courte, avec contexte multimodal texte-image |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 900 questions pour le split validation ; environ 11 500 questions au total |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.5 | Anthropic | 80,7 % | 24 novembre 2025 | Auto-déclaré |
| 2 | Claude Opus 4.1 | Anthropic | 77,1 % | 5 août 2025 | Auto-déclaré |
| 3 | Claude Opus 4 | Anthropic | 76,5 % | 22 mai 2025 | Auto-déclaré |
| 4 | Claude Haiku 4.5 | Anthropic | 73,2 % | 15 octobre 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 76,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMMU (validation) indique une bonne capacité à combiner lecture d’images, compréhension du contexte textuel et raisonnement disciplinaire. Le classement disponible dans la base reste toutefois limité à 4 modèles, avec un score médian de 77 % et un meilleur résultat de 81 % pour Claude Opus 4.5 (Anthropic). Cet écart relativement resserré suggère que le benchmark distingue encore les modèles, mais avec un risque de saturation si les meilleurs systèmes continuent à progresser. La fiabilité doit aussi être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le caractère public du jeu peut accroître le risque de contamination dans les données d’entraînement ou d’évaluation. Enfin, la portée reste circonscrite à l’anglais, au split validation et à des questions multimodales universitaires, ce qui n’épuise pas l’évaluation des performances en contexte réel ou multilingue.
Sources des scores : llm-stats.