VideoMME w/o sub.
VideoMME w/o sub. est un benchmark d’évaluation vidéo multimodale conçu par Chaoyou Fu et al. Il sert à mesurer la capacité de modèles vision-langage à comprendre des vidéos, à suivre des événements dans le temps et à raisonner sur des scènes visuelles complexes.
VideoMME w/o sub. est un benchmark d’évaluation vidéo multimodale conçu par Chaoyou Fu et al. Il sert à mesurer la capacité de modèles vision-langage à comprendre des vidéos, à suivre des événements dans le temps et à raisonner sur des scènes visuelles complexes.
Le benchmark s’inscrit dans l’évaluation des modèles capables de traiter des contenus séquentiels et multimodaux. Sa variante sans sous-titres met l’accent sur l’exploitation des signaux visuels, avec une éventuelle prise en compte d’autres modalités disponibles comme l’audio selon les configurations évaluées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Chaoyou Fu et al. |
| Capacités mesurées | multimodal, vidéo, vision |
| Modalité | Multimodal |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | CC-BY-NC-SA-4.0 |
| Langues | anglais |
| Taille du jeu | 900 vidéos et 2 700 questions-réponses |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-122B-A10B | Qwen | 83,9 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 82,8 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 82,5 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.6-35B-A3B | Qwen | 82,5 % | 16 avril 2026 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Instruct | Qwen | 79,2 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 235B A22B Thinking | Qwen | 79,0 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 32B Thinking | Qwen | 77,3 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen2.5 VL 72B Instruct | Qwen | 73,3 % | 26 janvier 2025 | Auto-déclaré |
| 9 | Qwen2.5 VL 32B Instruct | Qwen | 70,5 % | 28 février 2025 | Auto-déclaré |
| 10 | Qwen2.5 VL 7B Instruct | Qwen | 65,1 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 79,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur VideoMME w/o sub. indique une bonne aptitude à répondre à des QCM portant sur la compréhension vidéo, notamment lorsque l’information dépend de la chronologie, de la perception d’événements ou de scènes longues. Dans la base, le score médian atteint 79 %, tandis que le meilleur résultat recensé est celui de Qwen3.5-122B-A10B (Qwen) à 84 %, ce qui suggère un classement relativement resserré parmi les modèles évalués. La lecture de ces résultats doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs et ne relèvent donc pas tous d’une mesure indépendante homogène. Les limites habituelles incluent un risque de saturation si les meilleurs modèles se rapprochent, une possible contamination des données d’évaluation, ainsi qu’une portée centrée sur des vidéos et questions en anglais. Le classement met surtout en évidence les modèles les plus robustes sur l’analyse vidéo multimodale sans appui systématique des sous-titres.
Sources des scores : llm-stats.