MVBench
MVBench est un benchmark public de compréhension vidéo multimodale publié en 2023 par OpenGVLab, Shanghai AI Laboratory et d’autres contributeurs. Il évalue la capacité des modèles à analyser des vidéos au-delà d’une lecture image par image, à travers des QCM centrés sur des tâches…
MVBench est un benchmark public de compréhension vidéo multimodale publié en 2023 par OpenGVLab, Shanghai AI Laboratory et d’autres contributeurs. Il évalue la capacité des modèles à analyser des vidéos au-delà d’une lecture image par image, à travers des QCM centrés sur des tâches temporelles, spatiales et causales.
Le benchmark couvre un spectre allant de la perception à la cognition, avec des situations comme la reconnaissance d’actions, les interactions d’objets, les transitions de scènes ou l’inférence contrefactuelle. Il sert à comparer des modèles capables de relier contenu visuel, dynamique temporelle et compréhension sémantique.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenGVLab / Shanghai AI Laboratory et al. |
| Capacités mesurées | multimodal, raisonnement, raisonnement spatial, vidéo, vision |
| Modalité | Multimodal |
| Type de questions | QCM de compréhension vidéo multimodale |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 4 000 questions environ (20 tâches × 200) |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 17)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-122B-A10B | Qwen | 76,6 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.6-27B | Qwen | 75,5 % | 21 avril 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 74,8 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-27B | Qwen | 74,6 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3.6-35B-A3B | Qwen | 74,6 % | 16 avril 2026 | Auto-déclaré |
| 6 | Qwen2-VL-72B-Instruct | Qwen | 73,6 % | 29 août 2024 | Auto-déclaré |
| 7 | Qwen3 VL 32B Thinking | Qwen | 73,2 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 32B Instruct | Qwen | 72,8 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 30B A3B Instruct | Qwen | 72,3 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 30B A3B Thinking | Qwen | 72,0 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen2.5 VL 72B Instruct | Qwen | 70,4 % | 26 janvier 2025 | Auto-déclaré |
| 12 | Qwen2.5-Omni-7B | Qwen | 70,3 % | 27 mars 2025 | Auto-déclaré |
| 13 | Qwen2.5 VL 7B Instruct | Qwen | 69,6 % | 26 janvier 2025 | Auto-déclaré |
| 14 | Qwen3 VL 4B Thinking | Qwen | 69,3 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 8B Thinking | Qwen | 69,0 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 4B Instruct | Qwen | 68,9 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 8B Instruct | Qwen | 68,7 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 17 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 72,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MVBench indique une bonne capacité à exploiter les indices visuels et temporels d’une vidéo pour répondre à des questions de compréhension multimodale. L’écart entre le score médian observé dans la base, 72 %, et le meilleur résultat recensé, Qwen3.5-122B-A10B à 77 %, suggère un classement relativement resserré parmi les modèles évalués, sans domination très marquée. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement mesurée dans un protocole homogène. Le format QCM facilite la standardisation de l’accuracy, mais peut aussi masquer des faiblesses de raisonnement ouvert. Les limites portent aussi sur la portée linguistique, limitée à l’anglais, sur le risque de contamination lié à un benchmark public, et sur une possible saturation si les progrès se concentrent sur les tâches couvertes plutôt que sur la compréhension vidéo générale.
Sources des scores : llm-stats.