MVBench

MVBench est un benchmark public de compréhension vidéo multimodale publié en 2023 par OpenGVLab, Shanghai AI Laboratory et d’autres contributeurs. Il évalue la capacité des modèles à analyser des vidéos au-delà d’une lecture image par image, à travers des QCM centrés sur des tâches…

MVBench est un benchmark public de compréhension vidéo multimodale publié en 2023 par OpenGVLab, Shanghai AI Laboratory et d’autres contributeurs. Il évalue la capacité des modèles à analyser des vidéos au-delà d’une lecture image par image, à travers des QCM centrés sur des tâches temporelles, spatiales et causales.

Le benchmark couvre un spectre allant de la perception à la cognition, avec des situations comme la reconnaissance d’actions, les interactions d’objets, les transitions de scènes ou l’inférence contrefactuelle. Il sert à comparer des modèles capables de relier contenu visuel, dynamique temporelle et compréhension sémantique.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenGVLab / Shanghai AI Laboratory et al.
Capacités mesuréesmultimodal, raisonnement, raisonnement spatial, vidéo, vision
ModalitéMultimodal
Type de questionsQCM de compréhension vidéo multimodale
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu4 000 questions environ (20 tâches × 200)
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 17)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-122B-A10BQwen76,6 %24 février 2026Auto-déclaré
2Qwen3.6-27BQwen75,5 %21 avril 2026Auto-déclaré
3Qwen3.5-35B-A3BQwen74,8 %24 février 2026Auto-déclaré
4Qwen3.5-27BQwen74,6 %24 février 2026Auto-déclaré
5Qwen3.6-35B-A3BQwen74,6 %16 avril 2026Auto-déclaré
6Qwen2-VL-72B-InstructQwen73,6 %29 août 2024Auto-déclaré
7Qwen3 VL 32B ThinkingQwen73,2 %22 septembre 2025Auto-déclaré
8Qwen3 VL 32B InstructQwen72,8 %22 septembre 2025Auto-déclaré
9Qwen3 VL 30B A3B InstructQwen72,3 %22 septembre 2025Auto-déclaré
10Qwen3 VL 30B A3B ThinkingQwen72,0 %22 septembre 2025Auto-déclaré
11Qwen2.5 VL 72B InstructQwen70,4 %26 janvier 2025Auto-déclaré
12Qwen2.5-Omni-7BQwen70,3 %27 mars 2025Auto-déclaré
13Qwen2.5 VL 7B InstructQwen69,6 %26 janvier 2025Auto-déclaré
14Qwen3 VL 4B ThinkingQwen69,3 %22 septembre 2025Auto-déclaré
15Qwen3 VL 8B ThinkingQwen69,0 %22 septembre 2025Auto-déclaré
16Qwen3 VL 4B InstructQwen68,9 %22 septembre 2025Auto-déclaré
17Qwen3 VL 8B InstructQwen68,7 %22 septembre 2025Auto-déclaré

Classement établi sur 17 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 72,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MVBench indique une bonne capacité à exploiter les indices visuels et temporels d’une vidéo pour répondre à des questions de compréhension multimodale. L’écart entre le score médian observé dans la base, 72 %, et le meilleur résultat recensé, Qwen3.5-122B-A10B à 77 %, suggère un classement relativement resserré parmi les modèles évalués, sans domination très marquée. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement mesurée dans un protocole homogène. Le format QCM facilite la standardisation de l’accuracy, mais peut aussi masquer des faiblesses de raisonnement ouvert. Les limites portent aussi sur la portée linguistique, limitée à l’anglais, sur le risque de contamination lié à un benchmark public, et sur une possible saturation si les progrès se concentrent sur les tâches couvertes plutôt que sur la compréhension vidéo générale.


Sources des scores : llm-stats.