Vision & multimodal

VideoMME w/o sub.

VideoMME w/o sub. est un benchmark d’évaluation vidéo multimodale conçu par Chaoyou Fu et al. Il sert à mesurer la capacité de modèles vision-langage à comprendre des vidéos, à suivre des événements dans le temps et à raisonner sur des scènes visuelles complexes.

Le benchmark s’inscrit dans l’évaluation des modèles capables de traiter des contenus séquentiels et multimodaux. Sa variante sans sous-titres met l’accent sur l’exploitation des signaux visuels, avec une éventuelle prise en compte d’autres modalités disponibles comme l’audio selon les configurations évaluées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Chaoyou Fu et al.
Capacités mesurées	multimodal, vidéo, vision
Modalité	Multimodal
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Licence	CC-BY-NC-SA-4.0
Langues	anglais
Taille du jeu	900 vidéos et 2 700 questions-réponses
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-122B-A10B	Qwen	83,9 %	24 février 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	82,8 %	24 février 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	82,5 %	24 février 2026	Auto-déclaré
4	Qwen3.6-35B-A3B	Qwen	82,5 %	16 avril 2026	Auto-déclaré
5	Qwen3 VL 235B A22B Instruct	Qwen	79,2 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 235B A22B Thinking	Qwen	79,0 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 32B Thinking	Qwen	77,3 %	22 septembre 2025	Auto-déclaré
8	Qwen2.5 VL 72B Instruct	Qwen	73,3 %	26 janvier 2025	Auto-déclaré
9	Qwen2.5 VL 32B Instruct	Qwen	70,5 %	28 février 2025	Auto-déclaré
10	Qwen2.5 VL 7B Instruct	Qwen	65,1 %	26 janvier 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 79,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VideoMME w/o sub. indique une bonne aptitude à répondre à des QCM portant sur la compréhension vidéo, notamment lorsque l’information dépend de la chronologie, de la perception d’événements ou de scènes longues. Dans la base, le score médian atteint 79 %, tandis que le meilleur résultat recensé est celui de Qwen3.5-122B-A10B (Qwen) à 84 %, ce qui suggère un classement relativement resserré parmi les modèles évalués. La lecture de ces résultats doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs et ne relèvent donc pas tous d’une mesure indépendante homogène. Les limites habituelles incluent un risque de saturation si les meilleurs modèles se rapprochent, une possible contamination des données d’évaluation, ainsi qu’une portée centrée sur des vidéos et questions en anglais. Le classement met surtout en évidence les modèles les plus robustes sur l’analyse vidéo multimodale sans appui systématique des sous-titres.

Sources des scores : llm-stats.

VideoMME w/o sub.

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench