VideoMMMU

VideoMMMU est un benchmark d’évaluation multimodale consacré à l’apprentissage à partir de vidéos professionnelles de niveau expert. Créé par EvolvingLMMs-Lab, il examine la capacité des grands modèles multimodaux à extraire et utiliser des connaissances issues de contenus vidéo…

VideoMMMU est un benchmark d’évaluation multimodale consacré à l’apprentissage à partir de vidéos professionnelles de niveau expert. Créé par EvolvingLMMs-Lab, il examine la capacité des grands modèles multimodaux à extraire et utiliser des connaissances issues de contenus vidéo spécialisés.

Le test organise les questions-réponses autour de trois stades cognitifs, perception, compréhension et adaptation. Il sert ainsi à mesurer non seulement l’identification d’informations visibles ou audibles, mais aussi leur interprétation et leur réemploi dans des situations proches d’un raisonnement appliqué.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEvolvingLMMs-Lab
Capacités mesuréesAcquisition de connaissances a partir de videos professionnelles multimodales, des trois stades perception/comprehension/adaptation
ModalitéMultimodal
Type de questionsquestions-reponses sur videos expertes, alignees sur 3 stades cognitifs (perception, comprehension, adaptation)
Métrique d'évaluationexactitude (accuracy) et metrique de gain de connaissance Delta-knowledge
AccèsPublic
Languesanglais
Taille du jeu300 videos expertes et 900 questions annotees, 6 disciplines (30 sujets)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3 ProGoogle87,6 %18 novembre 2025Auto-déclaré
2Gemini 3 FlashGoogle86,9 %17 décembre 2025Auto-déclaré
3Kimi K2.5Moonshot AI86,6 %27 janvier 2026Auto-déclaré
4GPT-5.2OpenAI85,9 %11 décembre 2025Auto-déclaré
5Qwen3.7-PlusQwen85,4 %31 mai 2026Auto-déclaré
6Gemini 3.1 Flash-LiteGoogle84,8 %3 mars 2026Auto-déclaré
7GPT-5OpenAI84,6 %7 août 2025Auto-déclaré
8MiniMax M3MiniMax84,6 %1 juin 2026Auto-déclaré
9Qwen3.6-27BQwen84,4 %21 avril 2026Auto-déclaré
10Qwen3.6 PlusQwen84,0 %31 mars 2026Auto-déclaré
11Qwen3.6-35B-A3BQwen83,7 %16 avril 2026Auto-déclaré
12Gemini 2.5 Pro Preview 06-05Google83,6 %5 juin 2025Auto-déclaré
13o3OpenAI83,3 %16 avril 2025Auto-déclaré
14Qwen3.5-27BQwen82,3 %24 février 2026Auto-déclaré
15Qwen3.5-122B-A10BQwen82,0 %24 février 2026Auto-déclaré
16Qwen3.5-35B-A3BQwen80,4 %24 février 2026Auto-déclaré
17Qwen3 VL 235B A22B ThinkingQwen80,0 %22 septembre 2025Auto-déclaré
18Qwen3 VL 32B ThinkingQwen79,0 %22 septembre 2025Auto-déclaré
19Qwen3 VL 30B A3B ThinkingQwen75,0 %22 septembre 2025Auto-déclaré
20Qwen3 VL 235B A22B InstructQwen74,7 %22 septembre 2025Auto-déclaré

Classement établi sur 26 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 82,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VideoMMMU indique qu’un modèle parvient à acquérir des connaissances depuis des vidéos expertes, puis à répondre correctement à des questions alignées sur différents niveaux cognitifs. L’accuracy mesure la justesse des réponses, tandis que Delta-knowledge cherche à quantifier le gain de connaissance apporté par l’exposition aux vidéos. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le niveau médian élevé, 83 %, suggère aussi un risque de saturation progressive pour les meilleurs systèmes, même si l’écart avec Gemini 3 Pro, annoncé à 88 %, laisse encore une marge de différenciation. Les limites tiennent également à la portée du corpus, centré sur l’anglais et sur des vidéos professionnelles couvrant six disciplines, ainsi qu’au risque général de contamination des données. Le classement met surtout en évidence la maturité croissante des modèles multimodaux sur des tâches vidéo structurées et expertes.


Sources des scores : llm-stats.