MLVU

MLVU est un benchmark public consacré à la compréhension de longues vidéos par les modèles multimodaux. Créé par les auteurs MLVU, associés au dépôt JUNJIE99 de Junjie Zhou, il évalue la capacité à traiter des contenus vidéo étendus, de quelques minutes à deux heures, dans des contextes…

MLVU est un benchmark public consacré à la compréhension de longues vidéos par les modèles multimodaux. Créé par les auteurs MLVU, associés au dépôt JUNJIE99 de Junjie Zhou, il évalue la capacité à traiter des contenus vidéo étendus, de quelques minutes à deux heures, dans des contextes variés.

Le benchmark couvre des tâches de raisonnement, de sous-titrage, de reconnaissance et de résumé. Il sert à situer les modèles sur des usages où la continuité temporelle, la mémoire contextuelle et l’interprétation multimodale jouent un rôle central.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs MLVU (depot JUNJIE99 / Junjie Zhou)
Capacités mesuréesComprehension de longues videos : raisonnement, sous-titrage, reconnaissance, resume sur des durees longues
ModalitéMultimodal
Type de questionsMixte : QCM (taches a reponse fixe) et generation libre (sous-titrage, resume)
Métrique d'évaluationPrécision (M-Avg pour QCM) + notation par modele pour les taches generatives
AccèsPublic
Languesanglais
Taille du jeu9 taches, videos de 3 minutes a 2 heures, genres varies (films, surveillance, egocentrique, dessins animes, jeux)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7-PlusQwen87,4 %31 mai 2026Auto-déclaré
2Qwen3.5-122B-A10BQwen87,3 %24 février 2026Auto-déclaré
3Qwen3.6 PlusQwen86,7 %31 mars 2026Auto-déclaré
4Qwen3.6-27BQwen86,6 %21 avril 2026Auto-déclaré
5Qwen3.6-35B-A3BQwen86,2 %16 avril 2026Auto-déclaré
6Qwen3.5-27BQwen85,9 %24 février 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen85,6 %24 février 2026Auto-déclaré
8Qwen3 VL 235B A22B InstructQwen84,3 %22 septembre 2025Auto-déclaré
9Qwen3 VL 235B A22B ThinkingQwen83,8 %22 septembre 2025Auto-déclaré
10Qwen2.5 VL 7B InstructQwen70,2 %26 janvier 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 86,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MLVU indique une bonne aptitude à exploiter des vidéos longues, à relier des événements dans le temps et à produire des réponses adaptées selon des formats mixtes, du QCM à la génération libre. L’évaluation combine une précision agrégée pour les tâches à réponse fixe et une notation par modèle pour les tâches génératives, ce qui rend les résultats utiles mais moins homogènes que ceux d’un test entièrement automatisé. Dans la base considérée, les scores sont très resserrés, avec une médiane à 86% et un meilleur résultat à 87% pour Qwen3.7-Plus, ce qui suggère une possible saturation du classement sur les modèles évalués. La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Comme MLVU est public, le risque d’exposition préalable des données existe en principe, sans indication de contamination avérée. Sa portée reste centrée sur l’anglais et sur les genres vidéo représentés dans le jeu.


Sources des scores : llm-stats.