Vision & multimodal

MLVU

MLVU est un benchmark public consacré à la compréhension de longues vidéos par les modèles multimodaux. Créé par les auteurs MLVU, associés au dépôt JUNJIE99 de Junjie Zhou, il évalue la capacité à traiter des contenus vidéo étendus, de quelques minutes à deux heures, dans des contextes…

Le benchmark couvre des tâches de raisonnement, de sous-titrage, de reconnaissance et de résumé. Il sert à situer les modèles sur des usages où la continuité temporelle, la mémoire contextuelle et l’interprétation multimodale jouent un rôle central.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs MLVU (depot JUNJIE99 / Junjie Zhou)
Capacités mesurées	Comprehension de longues videos : raisonnement, sous-titrage, reconnaissance, resume sur des durees longues
Modalité	Multimodal
Type de questions	Mixte : QCM (taches a reponse fixe) et generation libre (sous-titrage, resume)
Métrique d'évaluation	Précision (M-Avg pour QCM) + notation par modele pour les taches generatives
Accès	Public
Langues	anglais
Taille du jeu	9 taches, videos de 3 minutes a 2 heures, genres varies (films, surveillance, egocentrique, dessins animes, jeux)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7-Plus	Qwen	87,4 %	31 mai 2026	Auto-déclaré
2	Qwen3.5-122B-A10B	Qwen	87,3 %	24 février 2026	Auto-déclaré
3	Qwen3.6 Plus	Qwen	86,7 %	31 mars 2026	Auto-déclaré
4	Qwen3.6-27B	Qwen	86,6 %	21 avril 2026	Auto-déclaré
5	Qwen3.6-35B-A3B	Qwen	86,2 %	16 avril 2026	Auto-déclaré
6	Qwen3.5-27B	Qwen	85,9 %	24 février 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	85,6 %	24 février 2026	Auto-déclaré
8	Qwen3 VL 235B A22B Instruct	Qwen	84,3 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 235B A22B Thinking	Qwen	83,8 %	22 septembre 2025	Auto-déclaré
10	Qwen2.5 VL 7B Instruct	Qwen	70,2 %	26 janvier 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 86,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MLVU indique une bonne aptitude à exploiter des vidéos longues, à relier des événements dans le temps et à produire des réponses adaptées selon des formats mixtes, du QCM à la génération libre. L’évaluation combine une précision agrégée pour les tâches à réponse fixe et une notation par modèle pour les tâches génératives, ce qui rend les résultats utiles mais moins homogènes que ceux d’un test entièrement automatisé. Dans la base considérée, les scores sont très resserrés, avec une médiane à 86% et un meilleur résultat à 87% pour Qwen3.7-Plus, ce qui suggère une possible saturation du classement sur les modèles évalués. La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Comme MLVU est public, le risque d’exposition préalable des données existe en principe, sans indication de contamination avérée. Sa portée reste centrée sur l’anglais et sur les genres vidéo représentés dans le jeu.

Sources des scores : llm-stats.

MLVU

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench