Vision & multimodal

VideoMMMU

VideoMMMU est un benchmark d’évaluation multimodale consacré à l’apprentissage à partir de vidéos professionnelles de niveau expert. Créé par EvolvingLMMs-Lab, il examine la capacité des grands modèles multimodaux à extraire et utiliser des connaissances issues de contenus vidéo…

Le test organise les questions-réponses autour de trois stades cognitifs, perception, compréhension et adaptation. Il sert ainsi à mesurer non seulement l’identification d’informations visibles ou audibles, mais aussi leur interprétation et leur réemploi dans des situations proches d’un raisonnement appliqué.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	EvolvingLMMs-Lab
Capacités mesurées	Acquisition de connaissances a partir de videos professionnelles multimodales, des trois stades perception/comprehension/adaptation
Modalité	Multimodal
Type de questions	questions-reponses sur videos expertes, alignees sur 3 stades cognitifs (perception, comprehension, adaptation)
Métrique d'évaluation	exactitude (accuracy) et metrique de gain de connaissance Delta-knowledge
Accès	Public
Langues	anglais
Taille du jeu	300 videos expertes et 900 questions annotees, 6 disciplines (30 sujets)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3 Pro	Google	87,6 %	18 novembre 2025	Auto-déclaré
2	Gemini 3 Flash	Google	86,9 %	17 décembre 2025	Auto-déclaré
3	Kimi K2.5	Moonshot AI	86,6 %	27 janvier 2026	Auto-déclaré
4	GPT-5.2	OpenAI	85,9 %	11 décembre 2025	Auto-déclaré
5	Qwen3.7-Plus	Qwen	85,4 %	31 mai 2026	Auto-déclaré
6	Gemini 3.1 Flash-Lite	Google	84,8 %	3 mars 2026	Auto-déclaré
7	GPT-5	OpenAI	84,6 %	7 août 2025	Auto-déclaré
8	MiniMax M3	MiniMax	84,6 %	1 juin 2026	Auto-déclaré
9	Qwen3.6-27B	Qwen	84,4 %	21 avril 2026	Auto-déclaré
10	Qwen3.6 Plus	Qwen	84,0 %	31 mars 2026	Auto-déclaré
11	Qwen3.6-35B-A3B	Qwen	83,7 %	16 avril 2026	Auto-déclaré
12	Gemini 2.5 Pro Preview 06-05	Google	83,6 %	5 juin 2025	Auto-déclaré
13	o3	OpenAI	83,3 %	16 avril 2025	Auto-déclaré
14	Qwen3.5-27B	Qwen	82,3 %	24 février 2026	Auto-déclaré
15	Qwen3.5-122B-A10B	Qwen	82,0 %	24 février 2026	Auto-déclaré
16	Qwen3.5-35B-A3B	Qwen	80,4 %	24 février 2026	Auto-déclaré
17	Qwen3 VL 235B A22B Thinking	Qwen	80,0 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 32B Thinking	Qwen	79,0 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 30B A3B Thinking	Qwen	75,0 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 235B A22B Instruct	Qwen	74,7 %	22 septembre 2025	Auto-déclaré

Classement établi sur 26 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 82,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VideoMMMU indique qu’un modèle parvient à acquérir des connaissances depuis des vidéos expertes, puis à répondre correctement à des questions alignées sur différents niveaux cognitifs. L’accuracy mesure la justesse des réponses, tandis que Delta-knowledge cherche à quantifier le gain de connaissance apporté par l’exposition aux vidéos. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le niveau médian élevé, 83 %, suggère aussi un risque de saturation progressive pour les meilleurs systèmes, même si l’écart avec Gemini 3 Pro, annoncé à 88 %, laisse encore une marge de différenciation. Les limites tiennent également à la portée du corpus, centré sur l’anglais et sur des vidéos professionnelles couvrant six disciplines, ainsi qu’au risque général de contamination des données. Le classement met surtout en évidence la maturité croissante des modèles multimodaux sur des tâches vidéo structurées et expertes.

Sources des scores : llm-stats.

VideoMMMU

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench