MMBench

MMBench est un benchmark public conçu par Shanghai AI Laboratory et OpenCompass, associé aux travaux de Y. Liu et al. Il sert à évaluer les capacités multimodales des modèles vision-langage à travers des questions visuelles à choix multiples, en anglais et en chinois.

MMBench est un benchmark public conçu par Shanghai AI Laboratory et OpenCompass, associé aux travaux de Y. Liu et al. Il sert à évaluer les capacités multimodales des modèles vision-langage à travers des questions visuelles à choix multiples, en anglais et en chinois.

Son objectif est de mesurer la compréhension conjointe de l’image et du texte, le raisonnement visuel, la reconnaissance d’objets et la perception fine. Il occupe ainsi une place de référence pour comparer des modèles capables d’interpréter une scène visuelle et de sélectionner une réponse pertinente.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkShanghai AI Laboratory / OpenCompass (Y. Liu et al.)
Capacités mesuréesmultimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais et chinois
Taille du jeuenviron 2 974 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Step3-VL-10BStepFun91,8 %15 janvier 2026Auto-déclaré
2Qwen2.5 VL 72B InstructQwen88,0 %26 janvier 2025Auto-déclaré
3Phi-4-multimodal-instructMicrosoft86,7 %1 février 2025Auto-déclaré
4Qwen2-VL-72B-InstructQwen86,5 %29 août 2024Auto-déclaré
5Qwen2.5 VL 7B InstructQwen84,3 %26 janvier 2025Auto-déclaré
6Phi-3.5-vision-instructMicrosoft81,9 %23 août 2024Auto-déclaré
7DeepSeek VL2 SmallDeepSeek80,3 %13 décembre 2024Auto-déclaré
8DeepSeek VL2DeepSeek79,6 %13 décembre 2024Auto-déclaré
9DeepSeek VL2 TinyDeepSeek69,2 %13 décembre 2024Auto-déclaré

Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 84,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMBench indique généralement une bonne maîtrise des QCM visuels, avec une capacité à relier des indices présents dans l’image à une consigne textuelle. Dans la base considérée, le score médian atteint 84 %, tandis que Step3-VL-10B de StepFun se situe en tête avec 92 %, ce qui suggère un niveau de performance élevé sur ce format d’évaluation parmi les 9 modèles suivis. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une campagne entièrement mesurée de façon indépendante. MMBench offre une évaluation structurée et bilingue, mais son format QCM peut favoriser certaines stratégies de réponse et ne couvre pas toute la richesse des usages multimodaux ouverts. Comme pour tout benchmark public, des risques de saturation progressive et de contamination des données existent, surtout lorsque les modèles les plus récents sont optimisés sur des jeux d’évaluation connus.


Sources des scores : llm-stats.