Video-MME
Video-MME est un benchmark public proposé par Chaoyou Fu et al. en 2024 pour évaluer la compréhension vidéo multimodale des MLLM. Il s’intéresse à la capacité des modèles à répondre à des QCM à partir de vidéos de durées variées, en mobilisant le raisonnement visuel et temporel.
Video-MME est un benchmark public proposé par Chaoyou Fu et al. en 2024 pour évaluer la compréhension vidéo multimodale des MLLM. Il s’intéresse à la capacité des modèles à répondre à des QCM à partir de vidéos de durées variées, en mobilisant le raisonnement visuel et temporel.
Le benchmark occupe une place de référence pour comparer les modèles d’analyse vidéo, car il combine plusieurs types d’entrées possibles, notamment images, sous-titres et audio, avec des contenus couvrant différents domaines visuels et linguistiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Chaoyou Fu et al. |
| Capacités mesurées | multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais pour les questions; contenus vidéo multilingues |
| Taille du jeu | 900 vidéos, 2 700 paires question-réponse |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 17)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 89,2 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 89,0 % | 24 juin 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 88,0 % | 31 mai 2026 | Auto-déclaré |
| 4 | MiMo-V2.5 | Xiaomi | 87,7 % | 22 avril 2026 | Auto-déclaré |
| 5 | Kimi K2.5 | Moonshot AI | 87,4 % | 27 janvier 2026 | Auto-déclaré |
| 6 | MiniMax M3 | MiniMax | 85,4 % | 1 juin 2026 | Auto-déclaré |
| 7 | Gemini 2.5 Pro | 84,8 % | 20 mai 2025 | Auto-déclaré | |
| 8 | Qwen3.6 Plus | Qwen | 84,2 % | 31 mars 2026 | Auto-déclaré |
| 9 | Gemini 1.5 Pro | 78,6 % | 1 mai 2024 | Auto-déclaré | |
| 10 | Nova 2 Omni | Amazon | 77,9 % | 2 décembre 2025 | Auto-déclaré |
| 11 | Gemini 1.5 Flash | 76,1 % | 1 mai 2024 | Auto-déclaré | |
| 12 | Qwen3 VL 30B A3B Instruct | Qwen | 74,5 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Thinking | Qwen | 73,3 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 8B Thinking | Qwen | 71,8 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 8B Instruct | Qwen | 71,4 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Gemini 1.5 Flash 8B | 66,2 % | 15 mars 2024 | Auto-déclaré | |
| 17 | Phi-4-multimodal-instruct | Microsoft | 55,0 % | 1 février 2025 | Auto-déclaré |
Classement établi sur 17 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 78,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Video-MME indique une bonne aptitude à relier des informations visuelles, temporelles et parfois audio ou textuelles pour résoudre des questions à choix multiples. La métrique d’accuracy rend la comparaison lisible, mais elle ne résume pas toute la robustesse d’un modèle, notamment face à des vidéos longues, à des contenus multilingues ou à des situations nécessitant une interprétation fine du contexte. L’évaluation repose sur des paires question-réponse annotées manuellement par des experts, ce qui renforce la qualité du signal de test. Dans la base considérée, les scores restent toutefois majoritairement auto-déclarés par les éditeurs, un point qui impose de lire le classement comme un indicateur comparatif plutôt que comme une mesure entièrement vérifiée de façon indépendante. Avec 17 modèles évalués, un score médian de 79 % et Seed 2.1 Pro en tête à 89 %, le leaderboard suggère déjà un niveau élevé sur cette tâche. Les limites habituelles demeurent : risque de saturation progressive, contamination possible des données d’évaluation et portée centrée sur le format QCM.
Sources des scores : llm-stats.