Vision & multimodal

MMBench

MMBench est un benchmark public conçu par Shanghai AI Laboratory et OpenCompass, associé aux travaux de Y. Liu et al. Il sert à évaluer les capacités multimodales des modèles vision-langage à travers des questions visuelles à choix multiples, en anglais et en chinois.

Son objectif est de mesurer la compréhension conjointe de l’image et du texte, le raisonnement visuel, la reconnaissance d’objets et la perception fine. Il occupe ainsi une place de référence pour comparer des modèles capables d’interpréter une scène visuelle et de sélectionner une réponse pertinente.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Shanghai AI Laboratory / OpenCompass (Y. Liu et al.)
Capacités mesurées	multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais et chinois
Taille du jeu	environ 2 974 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Step3-VL-10B	StepFun	91,8 %	15 janvier 2026	Auto-déclaré
2	Qwen2.5 VL 72B Instruct	Qwen	88,0 %	26 janvier 2025	Auto-déclaré
3	Phi-4-multimodal-instruct	Microsoft	86,7 %	1 février 2025	Auto-déclaré
4	Qwen2-VL-72B-Instruct	Qwen	86,5 %	29 août 2024	Auto-déclaré
5	Qwen2.5 VL 7B Instruct	Qwen	84,3 %	26 janvier 2025	Auto-déclaré
6	Phi-3.5-vision-instruct	Microsoft	81,9 %	23 août 2024	Auto-déclaré
7	DeepSeek VL2 Small	DeepSeek	80,3 %	13 décembre 2024	Auto-déclaré
8	DeepSeek VL2	DeepSeek	79,6 %	13 décembre 2024	Auto-déclaré
9	DeepSeek VL2 Tiny	DeepSeek	69,2 %	13 décembre 2024	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 84,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMBench indique généralement une bonne maîtrise des QCM visuels, avec une capacité à relier des indices présents dans l’image à une consigne textuelle. Dans la base considérée, le score médian atteint 84 %, tandis que Step3-VL-10B de StepFun se situe en tête avec 92 %, ce qui suggère un niveau de performance élevé sur ce format d’évaluation parmi les 9 modèles suivis. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une campagne entièrement mesurée de façon indépendante. MMBench offre une évaluation structurée et bilingue, mais son format QCM peut favoriser certaines stratégies de réponse et ne couvre pas toute la richesse des usages multimodaux ouverts. Comme pour tout benchmark public, des risques de saturation progressive et de contamination des données existent, surtout lorsque les modèles les plus récents sont optimisés sur des jeux d’évaluation connus.

Sources des scores : llm-stats.

MMBench

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench