Vision & multimodal

Video-MME

Video-MME est un benchmark public proposé par Chaoyou Fu et al. en 2024 pour évaluer la compréhension vidéo multimodale des MLLM. Il s’intéresse à la capacité des modèles à répondre à des QCM à partir de vidéos de durées variées, en mobilisant le raisonnement visuel et temporel.

Le benchmark occupe une place de référence pour comparer les modèles d’analyse vidéo, car il combine plusieurs types d’entrées possibles, notamment images, sous-titres et audio, avec des contenus couvrant différents domaines visuels et linguistiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Chaoyou Fu et al.
Capacités mesurées	multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais pour les questions; contenus vidéo multilingues
Taille du jeu	900 vidéos, 2 700 paires question-réponse
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 17)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	89,2 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	89,0 %	24 juin 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	88,0 %	31 mai 2026	Auto-déclaré
4	MiMo-V2.5	Xiaomi	87,7 %	22 avril 2026	Auto-déclaré
5	Kimi K2.5	Moonshot AI	87,4 %	27 janvier 2026	Auto-déclaré
6	MiniMax M3	MiniMax	85,4 %	1 juin 2026	Auto-déclaré
7	Gemini 2.5 Pro	Google	84,8 %	20 mai 2025	Auto-déclaré
8	Qwen3.6 Plus	Qwen	84,2 %	31 mars 2026	Auto-déclaré
9	Gemini 1.5 Pro	Google	78,6 %	1 mai 2024	Auto-déclaré
10	Nova 2 Omni	Amazon	77,9 %	2 décembre 2025	Auto-déclaré
11	Gemini 1.5 Flash	Google	76,1 %	1 mai 2024	Auto-déclaré
12	Qwen3 VL 30B A3B Instruct	Qwen	74,5 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Thinking	Qwen	73,3 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 8B Thinking	Qwen	71,8 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 8B Instruct	Qwen	71,4 %	22 septembre 2025	Auto-déclaré
16	Gemini 1.5 Flash 8B	Google	66,2 %	15 mars 2024	Auto-déclaré
17	Phi-4-multimodal-instruct	Microsoft	55,0 %	1 février 2025	Auto-déclaré

Classement établi sur 17 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 78,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Video-MME indique une bonne aptitude à relier des informations visuelles, temporelles et parfois audio ou textuelles pour résoudre des questions à choix multiples. La métrique d’accuracy rend la comparaison lisible, mais elle ne résume pas toute la robustesse d’un modèle, notamment face à des vidéos longues, à des contenus multilingues ou à des situations nécessitant une interprétation fine du contexte. L’évaluation repose sur des paires question-réponse annotées manuellement par des experts, ce qui renforce la qualité du signal de test. Dans la base considérée, les scores restent toutefois majoritairement auto-déclarés par les éditeurs, un point qui impose de lire le classement comme un indicateur comparatif plutôt que comme une mesure entièrement vérifiée de façon indépendante. Avec 17 modèles évalués, un score médian de 79 % et Seed 2.1 Pro en tête à 89 %, le leaderboard suggère déjà un niveau élevé sur cette tâche. Les limites habituelles demeurent : risque de saturation progressive, contamination possible des données d’évaluation et portée centrée sur le format QCM.

Sources des scores : llm-stats.

Video-MME

Carte d'identité

Classement des modèles (top 17)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench