LVBench
LVBench est un benchmark de compréhension de vidéos longues conçu par Zhipu AI (Z.ai) et Tsinghua University. Il vise à évaluer des modèles multimodaux confrontés à des séquences pouvant atteindre environ deux heures, un cadre plus exigeant que les tests vidéo centrés sur des extraits…
LVBench est un benchmark de compréhension de vidéos longues conçu par Zhipu AI (Z.ai) et Tsinghua University. Il vise à évaluer des modèles multimodaux confrontés à des séquences pouvant atteindre environ deux heures, un cadre plus exigeant que les tests vidéo centrés sur des extraits courts.
Le benchmark mesure la capacité à combiner vision, contexte long, mémoire à long terme et extraction d’information pour répondre à des questions à choix multiples. Il sert ainsi de repère pour comparer les modèles capables de maintenir une compréhension cohérente sur une durée étendue.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Zhipu AI (Z.ai) / Tsinghua University |
| Capacités mesurées | compréhension de vidéos longues, multimodal, vision, long contexte, mémoire à long terme, extraction d'information |
| Modalité | Multimodal |
| Type de questions | questions à choix multiples sur la compréhension de vidéos longues (jusqu'à ~2h) |
| Métrique d'évaluation | exactitude (accuracy) sur QCM |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 6 catégories principales et 21 sous-catégories de tâches; vidéos longues (jusqu'à 2h, en moyenne 5x plus longues que les datasets existants) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 78,0 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 76,8 % | 24 juin 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 76,2 % | 31 mai 2026 | Auto-déclaré |
| 4 | Kimi K2.5 | Moonshot AI | 75,9 % | 27 janvier 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 74,4 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-27B | Qwen | 73,6 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 71,4 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.6-35B-A3B | Qwen | 71,4 % | 16 avril 2026 | Auto-déclaré |
| 9 | Qwen3 VL 235B A22B Instruct | Qwen | 67,7 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 32B Instruct | Qwen | 63,8 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 235B A22B Thinking | Qwen | 63,6 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 32B Thinking | Qwen | 62,6 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Instruct | Qwen | 62,5 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 30B A3B Thinking | Qwen | 59,2 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 8B Instruct | Qwen | 58,0 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 4B Instruct | Qwen | 56,2 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 8B Thinking | Qwen | 55,8 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 4B Thinking | Qwen | 53,5 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen2.5 VL 32B Instruct | Qwen | 49,0 % | 28 février 2025 | Auto-déclaré |
| 20 | Qwen2.5 VL 72B Instruct | Qwen | 47,3 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 23 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 62,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LVBench indique qu’un modèle parvient à conserver et exploiter des informations réparties sur de longues vidéos, plutôt qu’à reconnaître seulement des scènes isolées. Dans la base considérée, le meilleur résultat recensé est Seed 2.1 Pro à 78 %, au-dessus d’un score médian de 63 % sur 23 modèles, ce qui suggère un écart encore net entre les systèmes les plus performants et le reste du classement. La lecture des résultats doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins solides qu’une évaluation entièrement reproduite et contrôlée. Le format QCM facilite la mesure par exactitude, mais limite aussi l’analyse fine des raisonnements ou des réponses ouvertes. Le benchmark étant public et en anglais, une contamination des données ne peut pas être exclue. LVBench reste surtout pertinent pour les usages nécessitant une compréhension de vidéos très longues, sans couvrir l’ensemble des capacités multimodales possibles.
Sources des scores : llm-stats.