VideoMME w/o sub.

VideoMME w/o sub. est un benchmark d’évaluation vidéo multimodale conçu par Chaoyou Fu et al. Il sert à mesurer la capacité de modèles vision-langage à comprendre des vidéos, à suivre des événements dans le temps et à raisonner sur des scènes visuelles complexes.

VideoMME w/o sub. est un benchmark d’évaluation vidéo multimodale conçu par Chaoyou Fu et al. Il sert à mesurer la capacité de modèles vision-langage à comprendre des vidéos, à suivre des événements dans le temps et à raisonner sur des scènes visuelles complexes.

Le benchmark s’inscrit dans l’évaluation des modèles capables de traiter des contenus séquentiels et multimodaux. Sa variante sans sous-titres met l’accent sur l’exploitation des signaux visuels, avec une éventuelle prise en compte d’autres modalités disponibles comme l’audio selon les configurations évaluées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkChaoyou Fu et al.
Capacités mesuréesmultimodal, vidéo, vision
ModalitéMultimodal
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
LicenceCC-BY-NC-SA-4.0
Languesanglais
Taille du jeu900 vidéos et 2 700 questions-réponses
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-122B-A10BQwen83,9 %24 février 2026Auto-déclaré
2Qwen3.5-27BQwen82,8 %24 février 2026Auto-déclaré
3Qwen3.5-35B-A3BQwen82,5 %24 février 2026Auto-déclaré
4Qwen3.6-35B-A3BQwen82,5 %16 avril 2026Auto-déclaré
5Qwen3 VL 235B A22B InstructQwen79,2 %22 septembre 2025Auto-déclaré
6Qwen3 VL 235B A22B ThinkingQwen79,0 %22 septembre 2025Auto-déclaré
7Qwen3 VL 32B ThinkingQwen77,3 %22 septembre 2025Auto-déclaré
8Qwen2.5 VL 72B InstructQwen73,3 %26 janvier 2025Auto-déclaré
9Qwen2.5 VL 32B InstructQwen70,5 %28 février 2025Auto-déclaré
10Qwen2.5 VL 7B InstructQwen65,1 %26 janvier 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 79,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VideoMME w/o sub. indique une bonne aptitude à répondre à des QCM portant sur la compréhension vidéo, notamment lorsque l’information dépend de la chronologie, de la perception d’événements ou de scènes longues. Dans la base, le score médian atteint 79 %, tandis que le meilleur résultat recensé est celui de Qwen3.5-122B-A10B (Qwen) à 84 %, ce qui suggère un classement relativement resserré parmi les modèles évalués. La lecture de ces résultats doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs et ne relèvent donc pas tous d’une mesure indépendante homogène. Les limites habituelles incluent un risque de saturation si les meilleurs modèles se rapprochent, une possible contamination des données d’évaluation, ainsi qu’une portée centrée sur des vidéos et questions en anglais. Le classement met surtout en évidence les modèles les plus robustes sur l’analyse vidéo multimodale sans appui systématique des sous-titres.


Sources des scores : llm-stats.