MLVU-M
MLVU-M est un benchmark consacré à la compréhension de longues vidéos, avec des séquences allant de quelques minutes à plusieurs heures. Créé par Junjie Zhou et al., au sein de l’équipe MLVU associée à BAAI et BUPT, il évalue la capacité des modèles multimodaux à extraire, relier et…
MLVU-M est un benchmark consacré à la compréhension de longues vidéos, avec des séquences allant de quelques minutes à plusieurs heures. Créé par Junjie Zhou et al., au sein de l’équipe MLVU associée à BAAI et BUPT, il évalue la capacité des modèles multimodaux à extraire, relier et interpréter des informations visuelles et temporelles sur la durée.
Le benchmark repose sur des QCM en anglais couvrant plusieurs types de tâches, dont le raisonnement, la reconnaissance et le résumé. Il sert à comparer les modèles sur leur aptitude à maintenir une compréhension cohérente au-delà de courts extraits vidéo.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Junjie Zhou et al. (equipe MLVU - BAAI / BUPT) |
| Capacités mesurées | Comprehension de longues videos (3 min a 2 h) sur 9 taches : raisonnement, reconnaissance, resume, etc. |
| Modalité | Texte |
| Type de questions | QCM (choix multiples) de comprehension de longues videos |
| Métrique d'évaluation | Exactitude (M-avg, moyenne des taches a choix multiples) |
| Accès | Public |
| Licence | CC BY-NC-SA 4.0 |
| Langues | Anglais |
| Taille du jeu | environ 2 600 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 32B Instruct | Qwen | 82,1 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 30B A3B Instruct | Qwen | 81,3 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 30B A3B Thinking | Qwen | 78,9 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 8B Instruct | Qwen | 78,1 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 4B Thinking | Qwen | 75,7 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 4B Instruct | Qwen | 75,3 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 8B Thinking | Qwen | 75,1 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen2.5 VL 72B Instruct | Qwen | 74,6 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 76,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MLVU-M indique qu’un modèle parvient à répondre correctement à des questions de compréhension portant sur des vidéos longues, en combinant perception visuelle, suivi temporel et raisonnement. Dans la base, le niveau médian atteint 77 %, tandis que le meilleur score recensé est celui de Qwen3 VL 32B Instruct (Qwen), à 82 %. Cet écart relativement limité suggère un classement resserré, où les différences doivent être interprétées avec prudence, surtout lorsque les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. La nature publique du benchmark facilite la comparaison, mais expose aussi à un risque de contamination des données d’évaluation. Sa portée reste centrée sur des QCM en anglais et sur neuf familles de tâches de compréhension vidéo, ce qui ne couvre pas toutes les formes d’usage multimodal. Le classement met surtout en évidence les modèles capables de maintenir une compréhension robuste sur de longues séquences.
Sources des scores : llm-stats.