LVBench

LVBench est un benchmark de compréhension de vidéos longues conçu par Zhipu AI (Z.ai) et Tsinghua University. Il vise à évaluer des modèles multimodaux confrontés à des séquences pouvant atteindre environ deux heures, un cadre plus exigeant que les tests vidéo centrés sur des extraits…

LVBench est un benchmark de compréhension de vidéos longues conçu par Zhipu AI (Z.ai) et Tsinghua University. Il vise à évaluer des modèles multimodaux confrontés à des séquences pouvant atteindre environ deux heures, un cadre plus exigeant que les tests vidéo centrés sur des extraits courts.

Le benchmark mesure la capacité à combiner vision, contexte long, mémoire à long terme et extraction d’information pour répondre à des questions à choix multiples. Il sert ainsi de repère pour comparer les modèles capables de maintenir une compréhension cohérente sur une durée étendue.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkZhipu AI (Z.ai) / Tsinghua University
Capacités mesuréescompréhension de vidéos longues, multimodal, vision, long contexte, mémoire à long terme, extraction d'information
ModalitéMultimodal
Type de questionsquestions à choix multiples sur la compréhension de vidéos longues (jusqu'à ~2h)
Métrique d'évaluationexactitude (accuracy) sur QCM
AccèsPublic
Languesanglais
Taille du jeu6 catégories principales et 21 sous-catégories de tâches; vidéos longues (jusqu'à 2h, en moyenne 5x plus longues que les datasets existants)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance78,0 %24 juin 2026Auto-déclaré
2Seed 2.1 Turbobytedance76,8 %24 juin 2026Auto-déclaré
3Qwen3.7-PlusQwen76,2 %31 mai 2026Auto-déclaré
4Kimi K2.5Moonshot AI75,9 %27 janvier 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen74,4 %24 février 2026Auto-déclaré
6Qwen3.5-27BQwen73,6 %24 février 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen71,4 %24 février 2026Auto-déclaré
8Qwen3.6-35B-A3BQwen71,4 %16 avril 2026Auto-déclaré
9Qwen3 VL 235B A22B InstructQwen67,7 %22 septembre 2025Auto-déclaré
10Qwen3 VL 32B InstructQwen63,8 %22 septembre 2025Auto-déclaré
11Qwen3 VL 235B A22B ThinkingQwen63,6 %22 septembre 2025Auto-déclaré
12Qwen3 VL 32B ThinkingQwen62,6 %22 septembre 2025Auto-déclaré
13Qwen3 VL 30B A3B InstructQwen62,5 %22 septembre 2025Auto-déclaré
14Qwen3 VL 30B A3B ThinkingQwen59,2 %22 septembre 2025Auto-déclaré
15Qwen3 VL 8B InstructQwen58,0 %22 septembre 2025Auto-déclaré
16Qwen3 VL 4B InstructQwen56,2 %22 septembre 2025Auto-déclaré
17Qwen3 VL 8B ThinkingQwen55,8 %22 septembre 2025Auto-déclaré
18Qwen3 VL 4B ThinkingQwen53,5 %22 septembre 2025Auto-déclaré
19Qwen2.5 VL 32B InstructQwen49,0 %28 février 2025Auto-déclaré
20Qwen2.5 VL 72B InstructQwen47,3 %26 janvier 2025Auto-déclaré

Classement établi sur 23 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 62,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LVBench indique qu’un modèle parvient à conserver et exploiter des informations réparties sur de longues vidéos, plutôt qu’à reconnaître seulement des scènes isolées. Dans la base considérée, le meilleur résultat recensé est Seed 2.1 Pro à 78 %, au-dessus d’un score médian de 63 % sur 23 modèles, ce qui suggère un écart encore net entre les systèmes les plus performants et le reste du classement. La lecture des résultats doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins solides qu’une évaluation entièrement reproduite et contrôlée. Le format QCM facilite la mesure par exactitude, mais limite aussi l’analyse fine des raisonnements ou des réponses ouvertes. Le benchmark étant public et en anglais, une contamination des données ne peut pas être exclue. LVBench reste surtout pertinent pour les usages nécessitant une compréhension de vidéos très longues, sans couvrir l’ensemble des capacités multimodales possibles.


Sources des scores : llm-stats.