VideoMME w sub.
VideoMME w sub est un benchmark public conçu par Chaoyou Fu et al. pour évaluer la compréhension vidéo multimodale des modèles d’IA. Il s’appuie sur des questions à choix multiples en anglais et mobilise plusieurs sources d’information, dont les images vidéo, les sous-titres et l’audio.
VideoMME w sub est un benchmark public conçu par Chaoyou Fu et al. pour évaluer la compréhension vidéo multimodale des modèles d’IA. Il s’appuie sur des questions à choix multiples en anglais et mobilise plusieurs sources d’information, dont les images vidéo, les sous-titres et l’audio.
Le benchmark sert à mesurer la capacité des modèles à analyser des vidéos de durées variées, à suivre des événements dans le temps et à combiner des indices visuels, textuels et sonores. Il joue ainsi un rôle de référence pour comparer les modèles multimodaux sur des tâches de compréhension vidéo.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Chaoyou Fu et al. |
| Capacités mesurées | multimodal, vidéo, vision |
| Modalité | Multimodal |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 900 vidéos, 2 700 questions-réponses |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6-27B | Qwen | 87,7 % | 21 avril 2026 | Auto-déclaré |
| 2 | Qwen3.5-122B-A10B | Qwen | 87,3 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-27B | Qwen | 87,0 % | 24 février 2026 | Auto-déclaré |
| 4 | GPT-5 | OpenAI | 86,7 % | 7 août 2025 | Auto-déclaré |
| 5 | Qwen3.5-35B-A3B | Qwen | 86,6 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.6-35B-A3B | Qwen | 86,6 % | 16 avril 2026 | Auto-déclaré |
| 7 | Qwen2.5 VL 32B Instruct | Qwen | 77,9 % | 28 février 2025 | Auto-déclaré |
| 8 | Qwen2.5-Omni-7B | Qwen | 72,4 % | 27 mars 2025 | Auto-déclaré |
| 9 | Qwen2.5 VL 7B Instruct | Qwen | 71,6 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 86,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur VideoMME w sub indique qu’un modèle répond correctement à des QCM nécessitant une bonne compréhension temporelle, visuelle et multimodale, avec un usage potentiellement utile des sous-titres et de l’audio. Dans la base considérée, les scores sont très resserrés, avec une médiane à 87 % et un meilleur résultat à 88 % pour Qwen3.6-27B. Cet écart réduit suggère une possible saturation du classement, ou au minimum une capacité limitée du benchmark à départager finement les modèles les plus performants dans cet échantillon.
La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs et non nécessairement reproduits dans un cadre indépendant unique. Le caractère public du jeu peut aussi accroître le risque de contamination des données d’entraînement ou d’optimisation. Sa portée reste centrée sur des QCM en anglais, ce qui ne couvre pas toute la diversité des usages vidéo, notamment la génération libre, l’interaction ou l’évaluation multilingue. Le classement révèle surtout une forte convergence des modèles évalués sur ce protocole précis.
Sources des scores : llm-stats.