MMBench
MMBench est un benchmark public conçu par Shanghai AI Laboratory et OpenCompass, associé aux travaux de Y. Liu et al. Il sert à évaluer les capacités multimodales des modèles vision-langage à travers des questions visuelles à choix multiples, en anglais et en chinois.
MMBench est un benchmark public conçu par Shanghai AI Laboratory et OpenCompass, associé aux travaux de Y. Liu et al. Il sert à évaluer les capacités multimodales des modèles vision-langage à travers des questions visuelles à choix multiples, en anglais et en chinois.
Son objectif est de mesurer la compréhension conjointe de l’image et du texte, le raisonnement visuel, la reconnaissance d’objets et la perception fine. Il occupe ainsi une place de référence pour comparer des modèles capables d’interpréter une scène visuelle et de sélectionner une réponse pertinente.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Shanghai AI Laboratory / OpenCompass (Y. Liu et al.) |
| Capacités mesurées | multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais et chinois |
| Taille du jeu | environ 2 974 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Step3-VL-10B | StepFun | 91,8 % | 15 janvier 2026 | Auto-déclaré |
| 2 | Qwen2.5 VL 72B Instruct | Qwen | 88,0 % | 26 janvier 2025 | Auto-déclaré |
| 3 | Phi-4-multimodal-instruct | Microsoft | 86,7 % | 1 février 2025 | Auto-déclaré |
| 4 | Qwen2-VL-72B-Instruct | Qwen | 86,5 % | 29 août 2024 | Auto-déclaré |
| 5 | Qwen2.5 VL 7B Instruct | Qwen | 84,3 % | 26 janvier 2025 | Auto-déclaré |
| 6 | Phi-3.5-vision-instruct | Microsoft | 81,9 % | 23 août 2024 | Auto-déclaré |
| 7 | DeepSeek VL2 Small | DeepSeek | 80,3 % | 13 décembre 2024 | Auto-déclaré |
| 8 | DeepSeek VL2 | DeepSeek | 79,6 % | 13 décembre 2024 | Auto-déclaré |
| 9 | DeepSeek VL2 Tiny | DeepSeek | 69,2 % | 13 décembre 2024 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 84,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMBench indique généralement une bonne maîtrise des QCM visuels, avec une capacité à relier des indices présents dans l’image à une consigne textuelle. Dans la base considérée, le score médian atteint 84 %, tandis que Step3-VL-10B de StepFun se situe en tête avec 92 %, ce qui suggère un niveau de performance élevé sur ce format d’évaluation parmi les 9 modèles suivis. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une campagne entièrement mesurée de façon indépendante. MMBench offre une évaluation structurée et bilingue, mais son format QCM peut favoriser certaines stratégies de réponse et ne couvre pas toute la richesse des usages multimodaux ouverts. Comme pour tout benchmark public, des risques de saturation progressive et de contamination des données existent, surtout lorsque les modèles les plus récents sont optimisés sur des jeux d’évaluation connus.
Sources des scores : llm-stats.