Video-MME

Video-MME est un benchmark public proposé par Chaoyou Fu et al. en 2024 pour évaluer la compréhension vidéo multimodale des MLLM. Il s’intéresse à la capacité des modèles à répondre à des QCM à partir de vidéos de durées variées, en mobilisant le raisonnement visuel et temporel.

Video-MME est un benchmark public proposé par Chaoyou Fu et al. en 2024 pour évaluer la compréhension vidéo multimodale des MLLM. Il s’intéresse à la capacité des modèles à répondre à des QCM à partir de vidéos de durées variées, en mobilisant le raisonnement visuel et temporel.

Le benchmark occupe une place de référence pour comparer les modèles d’analyse vidéo, car il combine plusieurs types d’entrées possibles, notamment images, sous-titres et audio, avec des contenus couvrant différents domaines visuels et linguistiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkChaoyou Fu et al.
Capacités mesuréesmultimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais pour les questions; contenus vidéo multilingues
Taille du jeu900 vidéos, 2 700 paires question-réponse
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 17)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance89,2 %24 juin 2026Auto-déclaré
2Seed 2.1 Turbobytedance89,0 %24 juin 2026Auto-déclaré
3Qwen3.7-PlusQwen88,0 %31 mai 2026Auto-déclaré
4MiMo-V2.5Xiaomi87,7 %22 avril 2026Auto-déclaré
5Kimi K2.5Moonshot AI87,4 %27 janvier 2026Auto-déclaré
6MiniMax M3MiniMax85,4 %1 juin 2026Auto-déclaré
7Gemini 2.5 ProGoogle84,8 %20 mai 2025Auto-déclaré
8Qwen3.6 PlusQwen84,2 %31 mars 2026Auto-déclaré
9Gemini 1.5 ProGoogle78,6 %1 mai 2024Auto-déclaré
10Nova 2 OmniAmazon77,9 %2 décembre 2025Auto-déclaré
11Gemini 1.5 FlashGoogle76,1 %1 mai 2024Auto-déclaré
12Qwen3 VL 30B A3B InstructQwen74,5 %22 septembre 2025Auto-déclaré
13Qwen3 VL 30B A3B ThinkingQwen73,3 %22 septembre 2025Auto-déclaré
14Qwen3 VL 8B ThinkingQwen71,8 %22 septembre 2025Auto-déclaré
15Qwen3 VL 8B InstructQwen71,4 %22 septembre 2025Auto-déclaré
16Gemini 1.5 Flash 8BGoogle66,2 %15 mars 2024Auto-déclaré
17Phi-4-multimodal-instructMicrosoft55,0 %1 février 2025Auto-déclaré

Classement établi sur 17 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 78,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Video-MME indique une bonne aptitude à relier des informations visuelles, temporelles et parfois audio ou textuelles pour résoudre des questions à choix multiples. La métrique d’accuracy rend la comparaison lisible, mais elle ne résume pas toute la robustesse d’un modèle, notamment face à des vidéos longues, à des contenus multilingues ou à des situations nécessitant une interprétation fine du contexte. L’évaluation repose sur des paires question-réponse annotées manuellement par des experts, ce qui renforce la qualité du signal de test. Dans la base considérée, les scores restent toutefois majoritairement auto-déclarés par les éditeurs, un point qui impose de lire le classement comme un indicateur comparatif plutôt que comme une mesure entièrement vérifiée de façon indépendante. Avec 17 modèles évalués, un score médian de 79 % et Seed 2.1 Pro en tête à 89 %, le leaderboard suggère déjà un niveau élevé sur cette tâche. Les limites habituelles demeurent : risque de saturation progressive, contamination possible des données d’évaluation et portée centrée sur le format QCM.


Sources des scores : llm-stats.