MLVU
MLVU est un benchmark public consacré à la compréhension de longues vidéos par les modèles multimodaux. Créé par les auteurs MLVU, associés au dépôt JUNJIE99 de Junjie Zhou, il évalue la capacité à traiter des contenus vidéo étendus, de quelques minutes à deux heures, dans des contextes…
MLVU est un benchmark public consacré à la compréhension de longues vidéos par les modèles multimodaux. Créé par les auteurs MLVU, associés au dépôt JUNJIE99 de Junjie Zhou, il évalue la capacité à traiter des contenus vidéo étendus, de quelques minutes à deux heures, dans des contextes variés.
Le benchmark couvre des tâches de raisonnement, de sous-titrage, de reconnaissance et de résumé. Il sert à situer les modèles sur des usages où la continuité temporelle, la mémoire contextuelle et l’interprétation multimodale jouent un rôle central.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs MLVU (depot JUNJIE99 / Junjie Zhou) |
| Capacités mesurées | Comprehension de longues videos : raisonnement, sous-titrage, reconnaissance, resume sur des durees longues |
| Modalité | Multimodal |
| Type de questions | Mixte : QCM (taches a reponse fixe) et generation libre (sous-titrage, resume) |
| Métrique d'évaluation | Précision (M-Avg pour QCM) + notation par modele pour les taches generatives |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 9 taches, videos de 3 minutes a 2 heures, genres varies (films, surveillance, egocentrique, dessins animes, jeux) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7-Plus | Qwen | 87,4 % | 31 mai 2026 | Auto-déclaré |
| 2 | Qwen3.5-122B-A10B | Qwen | 87,3 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.6 Plus | Qwen | 86,7 % | 31 mars 2026 | Auto-déclaré |
| 4 | Qwen3.6-27B | Qwen | 86,6 % | 21 avril 2026 | Auto-déclaré |
| 5 | Qwen3.6-35B-A3B | Qwen | 86,2 % | 16 avril 2026 | Auto-déclaré |
| 6 | Qwen3.5-27B | Qwen | 85,9 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 85,6 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3 VL 235B A22B Instruct | Qwen | 84,3 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 235B A22B Thinking | Qwen | 83,8 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen2.5 VL 7B Instruct | Qwen | 70,2 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 86,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MLVU indique une bonne aptitude à exploiter des vidéos longues, à relier des événements dans le temps et à produire des réponses adaptées selon des formats mixtes, du QCM à la génération libre. L’évaluation combine une précision agrégée pour les tâches à réponse fixe et une notation par modèle pour les tâches génératives, ce qui rend les résultats utiles mais moins homogènes que ceux d’un test entièrement automatisé. Dans la base considérée, les scores sont très resserrés, avec une médiane à 86% et un meilleur résultat à 87% pour Qwen3.7-Plus, ce qui suggère une possible saturation du classement sur les modèles évalués. La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Comme MLVU est public, le risque d’exposition préalable des données existe en principe, sans indication de contamination avérée. Sa portée reste centrée sur l’anglais et sur les genres vidéo représentés dans le jeu.
Sources des scores : llm-stats.