Vision & multimodal

MMBench-V1.1

MMBench-V1.1 est un benchmark bilingue conçu pour évaluer les capacités multimodales des modèles vision-langage à partir de questions à choix multiple. Créé par Shanghai AI Laboratory et al., il s’inscrit dans la famille des évaluations centrées sur l’interprétation d’images et la mise…

Le test couvre notamment la perception visuelle, le raisonnement sur image et la compréhension de scènes. Son rôle est de fournir un cadre systématique pour comparer des modèles capables d’analyser une image et de sélectionner une réponse parmi plusieurs options, en anglais comme en chinois.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Shanghai AI Laboratory et al.
Capacités mesurées	multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais et chinois
Taille du jeu	environ 3 000 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-122B-A10B	Qwen	92,8 %	24 février 2026	Auto-déclaré
2	Qwen3.6-35B-A3B	Qwen	92,8 %	16 avril 2026	Auto-déclaré
3	Qwen3.5-27B	Qwen	92,6 %	24 février 2026	Auto-déclaré
4	Qwen3.6-27B	Qwen	92,3 %	21 avril 2026	Auto-déclaré
5	Qwen3.5-35B-A3B	Qwen	91,5 %	24 février 2026	Auto-déclaré
6	Qwen3 VL 32B Thinking	Qwen	90,8 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 235B A22B Thinking	Qwen	90,6 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 235B A22B Instruct	Qwen	89,9 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 30B A3B Thinking	Qwen	88,9 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 8B Thinking	Qwen	87,5 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 30B A3B Instruct	Qwen	87,0 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 4B Thinking	Qwen	86,7 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 4B Instruct	Qwen	85,1 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 8B Instruct	Qwen	85,0 %	22 septembre 2025	Auto-déclaré
15	Qwen2.5-Omni-7B	Qwen	81,8 %	27 mars 2025	Auto-déclaré
16	DeepSeek VL2 Small	DeepSeek	79,3 %	13 décembre 2024	Auto-déclaré
17	DeepSeek VL2	DeepSeek	79,2 %	13 décembre 2024	Auto-déclaré
18	DeepSeek VL2 Tiny	DeepSeek	68,3 %	13 décembre 2024	Auto-déclaré

Classement établi sur 18 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 88,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMBench-V1.1 indique qu’un modèle vision-langage répond correctement à une grande part de QCM portant sur des tâches visuelles variées. Dans la base considérée, les résultats sont déjà concentrés à un niveau élevé, avec une médiane de 88 % et un meilleur score de 93 % pour Qwen3.5-122B-A10B (Qwen). Cet écart limité suggère une possible saturation partielle du benchmark pour les modèles les plus performants, ce qui réduit sa capacité à différencier finement le haut du classement. La rigueur de l’évaluation bénéficie d’un jeu de test privé dont les réponses ne sont pas divulguées, mais les scores disponibles restent majoritairement auto-déclarés par les éditeurs, ce qui appelle une lecture prudente. Les risques classiques de contamination ne peuvent pas être totalement écartés dans l’écosystème des benchmarks, même lorsque le test est privé. La portée reste centrée sur des QCM bilingues et ne couvre pas toute la richesse des usages multimodaux ouverts.

Sources des scores : llm-stats.

MMBench-V1.1

Carte d'identité

Classement des modèles (top 18)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench