VideoMME w sub.

VideoMME w sub est un benchmark public conçu par Chaoyou Fu et al. pour évaluer la compréhension vidéo multimodale des modèles d’IA. Il s’appuie sur des questions à choix multiples en anglais et mobilise plusieurs sources d’information, dont les images vidéo, les sous-titres et l’audio.

VideoMME w sub est un benchmark public conçu par Chaoyou Fu et al. pour évaluer la compréhension vidéo multimodale des modèles d’IA. Il s’appuie sur des questions à choix multiples en anglais et mobilise plusieurs sources d’information, dont les images vidéo, les sous-titres et l’audio.

Le benchmark sert à mesurer la capacité des modèles à analyser des vidéos de durées variées, à suivre des événements dans le temps et à combiner des indices visuels, textuels et sonores. Il joue ainsi un rôle de référence pour comparer les modèles multimodaux sur des tâches de compréhension vidéo.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkChaoyou Fu et al.
Capacités mesuréesmultimodal, vidéo, vision
ModalitéMultimodal
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu900 vidéos, 2 700 questions-réponses
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6-27BQwen87,7 %21 avril 2026Auto-déclaré
2Qwen3.5-122B-A10BQwen87,3 %24 février 2026Auto-déclaré
3Qwen3.5-27BQwen87,0 %24 février 2026Auto-déclaré
4GPT-5OpenAI86,7 %7 août 2025Auto-déclaré
5Qwen3.5-35B-A3BQwen86,6 %24 février 2026Auto-déclaré
6Qwen3.6-35B-A3BQwen86,6 %16 avril 2026Auto-déclaré
7Qwen2.5 VL 32B InstructQwen77,9 %28 février 2025Auto-déclaré
8Qwen2.5-Omni-7BQwen72,4 %27 mars 2025Auto-déclaré
9Qwen2.5 VL 7B InstructQwen71,6 %26 janvier 2025Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 86,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VideoMME w sub indique qu’un modèle répond correctement à des QCM nécessitant une bonne compréhension temporelle, visuelle et multimodale, avec un usage potentiellement utile des sous-titres et de l’audio. Dans la base considérée, les scores sont très resserrés, avec une médiane à 87 % et un meilleur résultat à 88 % pour Qwen3.6-27B. Cet écart réduit suggère une possible saturation du classement, ou au minimum une capacité limitée du benchmark à départager finement les modèles les plus performants dans cet échantillon.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs et non nécessairement reproduits dans un cadre indépendant unique. Le caractère public du jeu peut aussi accroître le risque de contamination des données d’entraînement ou d’optimisation. Sa portée reste centrée sur des QCM en anglais, ce qui ne couvre pas toute la diversité des usages vidéo, notamment la génération libre, l’interaction ou l’évaluation multilingue. Le classement révèle surtout une forte convergence des modèles évalués sur ce protocole précis.


Sources des scores : llm-stats.