MLVU-M

MLVU-M est un benchmark consacré à la compréhension de longues vidéos, avec des séquences allant de quelques minutes à plusieurs heures. Créé par Junjie Zhou et al., au sein de l’équipe MLVU associée à BAAI et BUPT, il évalue la capacité des modèles multimodaux à extraire, relier et…

MLVU-M est un benchmark consacré à la compréhension de longues vidéos, avec des séquences allant de quelques minutes à plusieurs heures. Créé par Junjie Zhou et al., au sein de l’équipe MLVU associée à BAAI et BUPT, il évalue la capacité des modèles multimodaux à extraire, relier et interpréter des informations visuelles et temporelles sur la durée.

Le benchmark repose sur des QCM en anglais couvrant plusieurs types de tâches, dont le raisonnement, la reconnaissance et le résumé. Il sert à comparer les modèles sur leur aptitude à maintenir une compréhension cohérente au-delà de courts extraits vidéo.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkJunjie Zhou et al. (equipe MLVU - BAAI / BUPT)
Capacités mesuréesComprehension de longues videos (3 min a 2 h) sur 9 taches : raisonnement, reconnaissance, resume, etc.
ModalitéTexte
Type de questionsQCM (choix multiples) de comprehension de longues videos
Métrique d'évaluationExactitude (M-avg, moyenne des taches a choix multiples)
AccèsPublic
LicenceCC BY-NC-SA 4.0
LanguesAnglais
Taille du jeuenviron 2 600 questions
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 32B InstructQwen82,1 %22 septembre 2025Auto-déclaré
2Qwen3 VL 30B A3B InstructQwen81,3 %22 septembre 2025Auto-déclaré
3Qwen3 VL 30B A3B ThinkingQwen78,9 %22 septembre 2025Auto-déclaré
4Qwen3 VL 8B InstructQwen78,1 %22 septembre 2025Auto-déclaré
5Qwen3 VL 4B ThinkingQwen75,7 %22 septembre 2025Auto-déclaré
6Qwen3 VL 4B InstructQwen75,3 %22 septembre 2025Auto-déclaré
7Qwen3 VL 8B ThinkingQwen75,1 %22 septembre 2025Auto-déclaré
8Qwen2.5 VL 72B InstructQwen74,6 %26 janvier 2025Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 76,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MLVU-M indique qu’un modèle parvient à répondre correctement à des questions de compréhension portant sur des vidéos longues, en combinant perception visuelle, suivi temporel et raisonnement. Dans la base, le niveau médian atteint 77 %, tandis que le meilleur score recensé est celui de Qwen3 VL 32B Instruct (Qwen), à 82 %. Cet écart relativement limité suggère un classement resserré, où les différences doivent être interprétées avec prudence, surtout lorsque les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. La nature publique du benchmark facilite la comparaison, mais expose aussi à un risque de contamination des données d’évaluation. Sa portée reste centrée sur des QCM en anglais et sur neuf familles de tâches de compréhension vidéo, ce qui ne couvre pas toutes les formes d’usage multimodal. Le classement met surtout en évidence les modèles capables de maintenir une compréhension robuste sur de longues séquences.


Sources des scores : llm-stats.