MMBench-V1.1

MMBench-V1.1 est un benchmark bilingue conçu pour évaluer les capacités multimodales des modèles vision-langage à partir de questions à choix multiple. Créé par Shanghai AI Laboratory et al., il s’inscrit dans la famille des évaluations centrées sur l’interprétation d’images et la mise…

MMBench-V1.1 est un benchmark bilingue conçu pour évaluer les capacités multimodales des modèles vision-langage à partir de questions à choix multiple. Créé par Shanghai AI Laboratory et al., il s’inscrit dans la famille des évaluations centrées sur l’interprétation d’images et la mise en relation entre contenu visuel et langage.

Le test couvre notamment la perception visuelle, le raisonnement sur image et la compréhension de scènes. Son rôle est de fournir un cadre systématique pour comparer des modèles capables d’analyser une image et de sélectionner une réponse parmi plusieurs options, en anglais comme en chinois.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkShanghai AI Laboratory et al.
Capacités mesuréesmultimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
Languesanglais et chinois
Taille du jeuenviron 3 000 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-122B-A10BQwen92,8 %24 février 2026Auto-déclaré
2Qwen3.6-35B-A3BQwen92,8 %16 avril 2026Auto-déclaré
3Qwen3.5-27BQwen92,6 %24 février 2026Auto-déclaré
4Qwen3.6-27BQwen92,3 %21 avril 2026Auto-déclaré
5Qwen3.5-35B-A3BQwen91,5 %24 février 2026Auto-déclaré
6Qwen3 VL 32B ThinkingQwen90,8 %22 septembre 2025Auto-déclaré
7Qwen3 VL 235B A22B ThinkingQwen90,6 %22 septembre 2025Auto-déclaré
8Qwen3 VL 235B A22B InstructQwen89,9 %22 septembre 2025Auto-déclaré
9Qwen3 VL 30B A3B ThinkingQwen88,9 %22 septembre 2025Auto-déclaré
10Qwen3 VL 8B ThinkingQwen87,5 %22 septembre 2025Auto-déclaré
11Qwen3 VL 30B A3B InstructQwen87,0 %22 septembre 2025Auto-déclaré
12Qwen3 VL 4B ThinkingQwen86,7 %22 septembre 2025Auto-déclaré
13Qwen3 VL 4B InstructQwen85,1 %22 septembre 2025Auto-déclaré
14Qwen3 VL 8B InstructQwen85,0 %22 septembre 2025Auto-déclaré
15Qwen2.5-Omni-7BQwen81,8 %27 mars 2025Auto-déclaré
16DeepSeek VL2 SmallDeepSeek79,3 %13 décembre 2024Auto-déclaré
17DeepSeek VL2DeepSeek79,2 %13 décembre 2024Auto-déclaré
18DeepSeek VL2 TinyDeepSeek68,3 %13 décembre 2024Auto-déclaré

Classement établi sur 18 modèles évalués, dont 18 de grands éditeurs. Score médian de l'ensemble : 88,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMBench-V1.1 indique qu’un modèle vision-langage répond correctement à une grande part de QCM portant sur des tâches visuelles variées. Dans la base considérée, les résultats sont déjà concentrés à un niveau élevé, avec une médiane de 88 % et un meilleur score de 93 % pour Qwen3.5-122B-A10B (Qwen). Cet écart limité suggère une possible saturation partielle du benchmark pour les modèles les plus performants, ce qui réduit sa capacité à différencier finement le haut du classement. La rigueur de l’évaluation bénéficie d’un jeu de test privé dont les réponses ne sont pas divulguées, mais les scores disponibles restent majoritairement auto-déclarés par les éditeurs, ce qui appelle une lecture prudente. Les risques classiques de contamination ne peuvent pas être totalement écartés dans l’écosystème des benchmarks, même lorsque le test est privé. La portée reste centrée sur des QCM bilingues et ne couvre pas toute la richesse des usages multimodaux ouverts.


Sources des scores : llm-stats.