Connaissances & sciences

MLVU-M

MLVU-M est un benchmark consacré à la compréhension de longues vidéos, avec des séquences allant de quelques minutes à plusieurs heures. Créé par Junjie Zhou et al., au sein de l’équipe MLVU associée à BAAI et BUPT, il évalue la capacité des modèles multimodaux à extraire, relier et…

Le benchmark repose sur des QCM en anglais couvrant plusieurs types de tâches, dont le raisonnement, la reconnaissance et le résumé. Il sert à comparer les modèles sur leur aptitude à maintenir une compréhension cohérente au-delà de courts extraits vidéo.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Junjie Zhou et al. (equipe MLVU - BAAI / BUPT)
Capacités mesurées	Comprehension de longues videos (3 min a 2 h) sur 9 taches : raisonnement, reconnaissance, resume, etc.
Modalité	Texte
Type de questions	QCM (choix multiples) de comprehension de longues videos
Métrique d'évaluation	Exactitude (M-avg, moyenne des taches a choix multiples)
Accès	Public
Licence	CC BY-NC-SA 4.0
Langues	Anglais
Taille du jeu	environ 2 600 questions
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 32B Instruct	Qwen	82,1 %	22 septembre 2025	Auto-déclaré
2	Qwen3 VL 30B A3B Instruct	Qwen	81,3 %	22 septembre 2025	Auto-déclaré
3	Qwen3 VL 30B A3B Thinking	Qwen	78,9 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 8B Instruct	Qwen	78,1 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 4B Thinking	Qwen	75,7 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 4B Instruct	Qwen	75,3 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 8B Thinking	Qwen	75,1 %	22 septembre 2025	Auto-déclaré
8	Qwen2.5 VL 72B Instruct	Qwen	74,6 %	26 janvier 2025	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 76,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MLVU-M indique qu’un modèle parvient à répondre correctement à des questions de compréhension portant sur des vidéos longues, en combinant perception visuelle, suivi temporel et raisonnement. Dans la base, le niveau médian atteint 77 %, tandis que le meilleur score recensé est celui de Qwen3 VL 32B Instruct (Qwen), à 82 %. Cet écart relativement limité suggère un classement resserré, où les différences doivent être interprétées avec prudence, surtout lorsque les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. La nature publique du benchmark facilite la comparaison, mais expose aussi à un risque de contamination des données d’évaluation. Sa portée reste centrée sur des QCM en anglais et sur neuf familles de tâches de compréhension vidéo, ce qui ne couvre pas toutes les formes d’usage multimodal. Le classement met surtout en évidence les modèles capables de maintenir une compréhension robuste sur de longues séquences.

Sources des scores : llm-stats.

MLVU-M

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench