Vision & multimodal

MVBench

MVBench est un benchmark public de compréhension vidéo multimodale publié en 2023 par OpenGVLab, Shanghai AI Laboratory et d’autres contributeurs. Il évalue la capacité des modèles à analyser des vidéos au-delà d’une lecture image par image, à travers des QCM centrés sur des tâches…

Le benchmark couvre un spectre allant de la perception à la cognition, avec des situations comme la reconnaissance d’actions, les interactions d’objets, les transitions de scènes ou l’inférence contrefactuelle. Il sert à comparer des modèles capables de relier contenu visuel, dynamique temporelle et compréhension sémantique.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenGVLab / Shanghai AI Laboratory et al.
Capacités mesurées	multimodal, raisonnement, raisonnement spatial, vidéo, vision
Modalité	Multimodal
Type de questions	QCM de compréhension vidéo multimodale
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	4 000 questions environ (20 tâches × 200)
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 17)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-122B-A10B	Qwen	76,6 %	24 février 2026	Auto-déclaré
2	Qwen3.6-27B	Qwen	75,5 %	21 avril 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	74,8 %	24 février 2026	Auto-déclaré
4	Qwen3.5-27B	Qwen	74,6 %	24 février 2026	Auto-déclaré
5	Qwen3.6-35B-A3B	Qwen	74,6 %	16 avril 2026	Auto-déclaré
6	Qwen2-VL-72B-Instruct	Qwen	73,6 %	29 août 2024	Auto-déclaré
7	Qwen3 VL 32B Thinking	Qwen	73,2 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 32B Instruct	Qwen	72,8 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 30B A3B Instruct	Qwen	72,3 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 30B A3B Thinking	Qwen	72,0 %	22 septembre 2025	Auto-déclaré
11	Qwen2.5 VL 72B Instruct	Qwen	70,4 %	26 janvier 2025	Auto-déclaré
12	Qwen2.5-Omni-7B	Qwen	70,3 %	27 mars 2025	Auto-déclaré
13	Qwen2.5 VL 7B Instruct	Qwen	69,6 %	26 janvier 2025	Auto-déclaré
14	Qwen3 VL 4B Thinking	Qwen	69,3 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 8B Thinking	Qwen	69,0 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 4B Instruct	Qwen	68,9 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 8B Instruct	Qwen	68,7 %	22 septembre 2025	Auto-déclaré

Classement établi sur 17 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 72,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MVBench indique une bonne capacité à exploiter les indices visuels et temporels d’une vidéo pour répondre à des questions de compréhension multimodale. L’écart entre le score médian observé dans la base, 72 %, et le meilleur résultat recensé, Qwen3.5-122B-A10B à 77 %, suggère un classement relativement resserré parmi les modèles évalués, sans domination très marquée. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement mesurée dans un protocole homogène. Le format QCM facilite la standardisation de l’accuracy, mais peut aussi masquer des faiblesses de raisonnement ouvert. Les limites portent aussi sur la portée linguistique, limitée à l’anglais, sur le risque de contamination lié à un benchmark public, et sur une possible saturation si les progrès se concentrent sur les tâches couvertes plutôt que sur la compréhension vidéo générale.

Sources des scores : llm-stats.

MVBench

Carte d'identité

Classement des modèles (top 17)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench