Vision & multimodal

MMMUval

MMMUval est le jeu de validation du benchmark MMMU, conçu par Xiang Yue et al. pour évaluer des modèles multimodaux sur des tâches universitaires exigeant à la fois compréhension visuelle, connaissances disciplinaires et raisonnement délibéré.

Le benchmark couvre de grands domaines comme Art & Design, Business, Science, Health & Medicine, Humanities & Social Science, ainsi que Tech & Engineering. Il sert à situer la capacité d’un modèle à traiter des questions mêlant texte et autres modalités, sous forme de QCM ou de réponses courtes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Xiang Yue et al.
Capacités mesurées	généraliste, santé, multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM et questions ouvertes à réponse courte, avec entrées multimodales
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	900 questions de validation
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 235B A22B Thinking	Qwen	80,6 %	22 septembre 2025	Auto-déclaré
2	Qwen3 VL 235B A22B Instruct	Qwen	78,7 %	22 septembre 2025	Auto-déclaré
3	Claude Sonnet 4.5	Anthropic	77,8 %	29 septembre 2025	Auto-déclaré
4	Qwen2-VL-72B-Instruct	Qwen	64,5 %	29 août 2024	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 78,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMMUval indique une bonne aptitude à résoudre des problèmes multimodaux de niveau universitaire, avec une part importante de raisonnement plutôt qu’une simple reconnaissance de contenu. Dans la base considérée, les résultats sont resserrés: le score médian atteint 78 %, tandis que Qwen3 VL 235B A22B Thinking (Qwen) occupe la première place avec 81 %. Cet écart limité suggère un classement utile pour comparer des modèles avancés, mais moins discriminant lorsque les performances se rapprochent.

La lecture des scores doit rester prudente, car ils sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante. Le caractère public du jeu et sa taille limitée à 900 questions de validation peuvent aussi accroître les risques de saturation ou de contamination, surtout pour des modèles entraînés sur de larges corpus. La portée reste centrée sur l’anglais et sur des tâches académiques multimodales, ce qui ne résume pas l’ensemble des usages réels.

Sources des scores : llm-stats.

MMMUval

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23