MMMUval
MMMUval est le jeu de validation du benchmark MMMU, conçu par Xiang Yue et al. pour évaluer des modèles multimodaux sur des tâches universitaires exigeant à la fois compréhension visuelle, connaissances disciplinaires et raisonnement délibéré.
MMMUval est le jeu de validation du benchmark MMMU, conçu par Xiang Yue et al. pour évaluer des modèles multimodaux sur des tâches universitaires exigeant à la fois compréhension visuelle, connaissances disciplinaires et raisonnement délibéré.
Le benchmark couvre de grands domaines comme Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, ainsi que Tech & Engineering. Il sert à situer la capacité d’un modèle à traiter des questions mêlant texte et autres modalités, sous forme de QCM ou de réponses courtes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Xiang Yue et al. |
| Capacités mesurées | généraliste, santé, multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM et questions ouvertes à réponse courte, avec entrées multimodales |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 900 questions de validation |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 235B A22B Thinking | Qwen | 80,6 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 235B A22B Instruct | Qwen | 78,7 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Claude Sonnet 4.5 | Anthropic | 77,8 % | 29 septembre 2025 | Auto-déclaré |
| 4 | Qwen2-VL-72B-Instruct | Qwen | 64,5 % | 29 août 2024 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 78,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMMUval indique une bonne aptitude à résoudre des problèmes multimodaux de niveau universitaire, avec une part importante de raisonnement plutôt qu’une simple reconnaissance de contenu. Dans la base considérée, les résultats sont resserrés: le score médian atteint 78 %, tandis que Qwen3 VL 235B A22B Thinking (Qwen) occupe la première place avec 81 %. Cet écart limité suggère un classement utile pour comparer des modèles avancés, mais moins discriminant lorsque les performances se rapprochent.
La lecture des scores doit rester prudente, car ils sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le caractère public du jeu et sa taille limitée à 900 questions de validation peuvent aussi accroître les risques de saturation ou de contamination, surtout pour des modèles entraînés sur de larges corpus. La portée reste centrée sur l’anglais et sur des tâches académiques multimodales, ce qui ne résume pas l’ensemble des usages réels.
Sources des scores : llm-stats.