Vision & multimodal

VideoMME w sub.

VideoMME w sub est un benchmark public conçu par Chaoyou Fu et al. pour évaluer la compréhension vidéo multimodale des modèles d’IA. Il s’appuie sur des questions à choix multiples en anglais et mobilise plusieurs sources d’information, dont les images vidéo, les sous-titres et l’audio.

Le benchmark sert à mesurer la capacité des modèles à analyser des vidéos de durées variées, à suivre des événements dans le temps et à combiner des indices visuels, textuels et sonores. Il joue ainsi un rôle de référence pour comparer les modèles multimodaux sur des tâches de compréhension vidéo.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Chaoyou Fu et al.
Capacités mesurées	multimodal, vidéo, vision
Modalité	Multimodal
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	900 vidéos, 2 700 questions-réponses
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6-27B	Qwen	87,7 %	21 avril 2026	Auto-déclaré
2	Qwen3.5-122B-A10B	Qwen	87,3 %	24 février 2026	Auto-déclaré
3	Qwen3.5-27B	Qwen	87,0 %	24 février 2026	Auto-déclaré
4	GPT-5	OpenAI	86,7 %	7 août 2025	Auto-déclaré
5	Qwen3.5-35B-A3B	Qwen	86,6 %	24 février 2026	Auto-déclaré
6	Qwen3.6-35B-A3B	Qwen	86,6 %	16 avril 2026	Auto-déclaré
7	Qwen2.5 VL 32B Instruct	Qwen	77,9 %	28 février 2025	Auto-déclaré
8	Qwen2.5-Omni-7B	Qwen	72,4 %	27 mars 2025	Auto-déclaré
9	Qwen2.5 VL 7B Instruct	Qwen	71,6 %	26 janvier 2025	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 86,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VideoMME w sub indique qu’un modèle répond correctement à des QCM nécessitant une bonne compréhension temporelle, visuelle et multimodale, avec un usage potentiellement utile des sous-titres et de l’audio. Dans la base considérée, les scores sont très resserrés, avec une médiane à 87 % et un meilleur résultat à 88 % pour Qwen3.6-27B. Cet écart réduit suggère une possible saturation du classement, ou au minimum une capacité limitée du benchmark à départager finement les modèles les plus performants dans cet échantillon.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs et non nécessairement reproduits dans un cadre indépendant unique. Le caractère public du jeu peut aussi accroître le risque de contamination des données d’entraînement ou d’optimisation. Sa portée reste centrée sur des QCM en anglais, ce qui ne couvre pas toute la diversité des usages vidéo, notamment la génération libre, l’interaction ou l’évaluation multilingue. Le classement révèle surtout une forte convergence des modèles évalués sur ce protocole précis.

Sources des scores : llm-stats.

VideoMME w sub.

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++