MMMU-Pro
MMMU-Pro est un benchmark public conçu par l’équipe MMMU, avec Xiang Yue, Tianyu Zheng et leurs co-auteurs, pour évaluer la compréhension et le raisonnement multimodaux multidisciplinaires. Il prolonge MMMU en rendant les questions moins accessibles par le seul texte et plus dépendantes…
MMMU-Pro est un benchmark public conçu par l’équipe MMMU, avec Xiang Yue, Tianyu Zheng et leurs co-auteurs, pour évaluer la compréhension et le raisonnement multimodaux multidisciplinaires. Il prolonge MMMU en rendant les questions moins accessibles par le seul texte et plus dépendantes de l’interprétation conjointe du texte et de l’image.
Le benchmark teste notamment des QCM aux options augmentées et un réglage vision-only, où la question est intégrée directement dans l’image. Son rôle est de mieux approcher des situations réelles d’usage, dans lesquelles un modèle doit extraire, relier et raisonner sur des informations visuelles et textuelles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Équipe MMMU (Xiang Yue, Tianyu Zheng et al.) |
| Capacités mesurées | Compréhension et raisonnement multimodaux multidisciplinaires (texte + image), y compris en entrée purement visuelle où la question est intégrée à l'image. |
| Modalité | Multimodal |
| Type de questions | QCM à options augmentées + réglage à entrée purement visuelle (vision-only) |
| Métrique d'évaluation | Exactitude |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | environ 1 730 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3.5 Flash | 83,6 % | 19 mai 2026 | Auto-déclaré | |
| 2 | GPT-5.5 | OpenAI | 83,2 % | 23 avril 2026 | Auto-déclaré |
| 3 | Seed 2.1 Pro | bytedance | 82,7 % | 24 juin 2026 | Auto-déclaré |
| 4 | Seed 2.1 Turbo | bytedance | 82,2 % | 24 juin 2026 | Auto-déclaré |
| 5 | GPT-5.4 | OpenAI | 81,2 % | 5 mars 2026 | Auto-déclaré |
| 6 | Gemini 3 Flash | 81,2 % | 17 décembre 2025 | Auto-déclaré | |
| 7 | Gemini 3 Pro | 81,0 % | 18 novembre 2025 | Auto-déclaré | |
| 8 | Gemini 3.1 Pro Preview | 80,5 % | 19 février 2026 | Auto-déclaré | |
| 9 | Muse Spark | Meta | 80,4 % | 8 avril 2026 | Auto-déclaré |
| 10 | Kimi K2.6 | Moonshot AI | 80,1 % | 20 avril 2026 | Auto-déclaré |
| 11 | GPT-5.2 | OpenAI | 79,5 % | 11 décembre 2025 | Auto-déclaré |
| 12 | Qwen3.7-Plus | Qwen | 79,0 % | 31 mai 2026 | Auto-déclaré |
| 13 | Qwen3.6 Plus | Qwen | 78,8 % | 31 mars 2026 | Auto-déclaré |
| 14 | Kimi K2.5 | Moonshot AI | 78,5 % | 27 janvier 2026 | Auto-déclaré |
| 15 | GPT-5 | OpenAI | 78,4 % | 7 août 2025 | Auto-déclaré |
| 16 | MiniMax M3 | MiniMax | 78,1 % | 1 juin 2026 | Auto-déclaré |
| 17 | MiMo-V2.5 | Xiaomi | 77,9 % | 22 avril 2026 | Auto-déclaré |
| 18 | Claude Opus 4.6 | Anthropic | 77,3 % | 7 avril 2026 | Auto-déclaré |
| 19 | Gemma 4 31B | 76,9 % | 2 avril 2026 | Auto-déclaré | |
| 20 | Qwen3.5-122B-A10B | Qwen | 76,9 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 60 modèles évalués, dont 53 de grands éditeurs. Score médian de l'ensemble : 71,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMMU-Pro indique une capacité solide à traiter des problèmes multimodaux variés, y compris lorsque l’information textuelle explicite est réduite ou déplacée dans l’image. Le benchmark est conçu pour être plus rigoureux que MMMU, avec un filtrage des questions répondables par le texte seul, des options de réponse augmentées et un mode vision-only. Cette conception vise à limiter les réussites fondées sur des indices superficiels et à mieux mesurer le raisonnement multimodal. Les scores de la base doivent toutefois être interprétés avec prudence, car ils sont majoritairement auto-déclarés par les éditeurs, ce qui peut introduire des différences de protocole ou de reproductibilité. Les limites habituelles demeurent aussi possibles : contamination des données d’entraînement, saturation progressive si les meilleurs modèles convergent, et portée restreinte à l’anglais et au format QCM. Le classement montre un niveau médian élevé, avec Gemini 3.5 Flash en tête, ce qui suggère une forte compétitivité des modèles multimodaux récents sur ce type d’évaluation.
Sources des scores : llm-stats.