MMMUval

MMMUval est le jeu de validation du benchmark MMMU, conçu par Xiang Yue et al. pour évaluer des modèles multimodaux sur des tâches universitaires exigeant à la fois compréhension visuelle, connaissances disciplinaires et raisonnement délibéré.

MMMUval est le jeu de validation du benchmark MMMU, conçu par Xiang Yue et al. pour évaluer des modèles multimodaux sur des tâches universitaires exigeant à la fois compréhension visuelle, connaissances disciplinaires et raisonnement délibéré.

Le benchmark couvre de grands domaines comme Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, ainsi que Tech & Engineering. Il sert à situer la capacité d’un modèle à traiter des questions mêlant texte et autres modalités, sous forme de QCM ou de réponses courtes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkXiang Yue et al.
Capacités mesuréesgénéraliste, santé, multimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM et questions ouvertes à réponse courte, avec entrées multimodales
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu900 questions de validation
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 235B A22B ThinkingQwen80,6 %22 septembre 2025Auto-déclaré
2Qwen3 VL 235B A22B InstructQwen78,7 %22 septembre 2025Auto-déclaré
3Claude Sonnet 4.5Anthropic77,8 %29 septembre 2025Auto-déclaré
4Qwen2-VL-72B-InstructQwen64,5 %29 août 2024Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 78,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMUval indique une bonne aptitude à résoudre des problèmes multimodaux de niveau universitaire, avec une part importante de raisonnement plutôt qu’une simple reconnaissance de contenu. Dans la base considérée, les résultats sont resserrés: le score médian atteint 78 %, tandis que Qwen3 VL 235B A22B Thinking (Qwen) occupe la première place avec 81 %. Cet écart limité suggère un classement utile pour comparer des modèles avancés, mais moins discriminant lorsque les performances se rapprochent.

La lecture des scores doit rester prudente, car ils sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le caractère public du jeu et sa taille limitée à 900 questions de validation peuvent aussi accroître les risques de saturation ou de contamination, surtout pour des modèles entraînés sur de larges corpus. La portée reste centrée sur l’anglais et sur des tâches académiques multimodales, ce qui ne résume pas l’ensemble des usages réels.


Sources des scores : llm-stats.