Vision & multimodal

LVBench

LVBench est un benchmark de compréhension de vidéos longues conçu par Zhipu AI (Z.ai) et Tsinghua University. Il vise à évaluer des modèles multimodaux confrontés à des séquences pouvant atteindre environ deux heures, un cadre plus exigeant que les tests vidéo centrés sur des extraits…

Le benchmark mesure la capacité à combiner vision, contexte long, mémoire à long terme et extraction d’information pour répondre à des questions à choix multiples. Il sert ainsi de repère pour comparer les modèles capables de maintenir une compréhension cohérente sur une durée étendue.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Zhipu AI (Z.ai) / Tsinghua University
Capacités mesurées	compréhension de vidéos longues, multimodal, vision, long contexte, mémoire à long terme, extraction d'information
Modalité	Multimodal
Type de questions	questions à choix multiples sur la compréhension de vidéos longues (jusqu'à ~2h)
Métrique d'évaluation	exactitude (accuracy) sur QCM
Accès	Public
Langues	anglais
Taille du jeu	6 catégories principales et 21 sous-catégories de tâches; vidéos longues (jusqu'à 2h, en moyenne 5x plus longues que les datasets existants)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	78,0 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	76,8 %	24 juin 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	76,2 %	31 mai 2026	Auto-déclaré
4	Kimi K2.5	Moonshot AI	75,9 %	27 janvier 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	74,4 %	24 février 2026	Auto-déclaré
6	Qwen3.5-27B	Qwen	73,6 %	24 février 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	71,4 %	24 février 2026	Auto-déclaré
8	Qwen3.6-35B-A3B	Qwen	71,4 %	16 avril 2026	Auto-déclaré
9	Qwen3 VL 235B A22B Instruct	Qwen	67,7 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 32B Instruct	Qwen	63,8 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 235B A22B Thinking	Qwen	63,6 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 32B Thinking	Qwen	62,6 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Instruct	Qwen	62,5 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 30B A3B Thinking	Qwen	59,2 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 8B Instruct	Qwen	58,0 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 4B Instruct	Qwen	56,2 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 8B Thinking	Qwen	55,8 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 4B Thinking	Qwen	53,5 %	22 septembre 2025	Auto-déclaré
19	Qwen2.5 VL 32B Instruct	Qwen	49,0 %	28 février 2025	Auto-déclaré
20	Qwen2.5 VL 72B Instruct	Qwen	47,3 %	26 janvier 2025	Auto-déclaré

Classement établi sur 23 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 62,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LVBench indique qu’un modèle parvient à conserver et exploiter des informations réparties sur de longues vidéos, plutôt qu’à reconnaître seulement des scènes isolées. Dans la base considérée, le meilleur résultat recensé est Seed 2.1 Pro à 78 %, au-dessus d’un score médian de 63 % sur 23 modèles, ce qui suggère un écart encore net entre les systèmes les plus performants et le reste du classement. La lecture des résultats doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins solides qu’une évaluation entièrement reproduite et contrôlée. Le format QCM facilite la mesure par exactitude, mais limite aussi l’analyse fine des raisonnements ou des réponses ouvertes. Le benchmark étant public et en anglais, une contamination des données ne peut pas être exclue. LVBench reste surtout pertinent pour les usages nécessitant une compréhension de vidéos très longues, sans couvrir l’ensemble des capacités multimodales possibles.

Sources des scores : llm-stats.

LVBench

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++