VideoMMMU
VideoMMMU est un benchmark d’évaluation multimodale consacré à l’apprentissage à partir de vidéos professionnelles de niveau expert. Créé par EvolvingLMMs-Lab, il examine la capacité des grands modèles multimodaux à extraire et utiliser des connaissances issues de contenus vidéo…
VideoMMMU est un benchmark d’évaluation multimodale consacré à l’apprentissage à partir de vidéos professionnelles de niveau expert. Créé par EvolvingLMMs-Lab, il examine la capacité des grands modèles multimodaux à extraire et utiliser des connaissances issues de contenus vidéo spécialisés.
Le test organise les questions-réponses autour de trois stades cognitifs, perception, compréhension et adaptation. Il sert ainsi à mesurer non seulement l’identification d’informations visibles ou audibles, mais aussi leur interprétation et leur réemploi dans des situations proches d’un raisonnement appliqué.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | EvolvingLMMs-Lab |
| Capacités mesurées | Acquisition de connaissances a partir de videos professionnelles multimodales, des trois stades perception/comprehension/adaptation |
| Modalité | Multimodal |
| Type de questions | questions-reponses sur videos expertes, alignees sur 3 stades cognitifs (perception, comprehension, adaptation) |
| Métrique d'évaluation | exactitude (accuracy) et metrique de gain de connaissance Delta-knowledge |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 300 videos expertes et 900 questions annotees, 6 disciplines (30 sujets) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3 Pro | 87,6 % | 18 novembre 2025 | Auto-déclaré | |
| 2 | Gemini 3 Flash | 86,9 % | 17 décembre 2025 | Auto-déclaré | |
| 3 | Kimi K2.5 | Moonshot AI | 86,6 % | 27 janvier 2026 | Auto-déclaré |
| 4 | GPT-5.2 | OpenAI | 85,9 % | 11 décembre 2025 | Auto-déclaré |
| 5 | Qwen3.7-Plus | Qwen | 85,4 % | 31 mai 2026 | Auto-déclaré |
| 6 | Gemini 3.1 Flash-Lite | 84,8 % | 3 mars 2026 | Auto-déclaré | |
| 7 | GPT-5 | OpenAI | 84,6 % | 7 août 2025 | Auto-déclaré |
| 8 | MiniMax M3 | MiniMax | 84,6 % | 1 juin 2026 | Auto-déclaré |
| 9 | Qwen3.6-27B | Qwen | 84,4 % | 21 avril 2026 | Auto-déclaré |
| 10 | Qwen3.6 Plus | Qwen | 84,0 % | 31 mars 2026 | Auto-déclaré |
| 11 | Qwen3.6-35B-A3B | Qwen | 83,7 % | 16 avril 2026 | Auto-déclaré |
| 12 | Gemini 2.5 Pro Preview 06-05 | 83,6 % | 5 juin 2025 | Auto-déclaré | |
| 13 | o3 | OpenAI | 83,3 % | 16 avril 2025 | Auto-déclaré |
| 14 | Qwen3.5-27B | Qwen | 82,3 % | 24 février 2026 | Auto-déclaré |
| 15 | Qwen3.5-122B-A10B | Qwen | 82,0 % | 24 février 2026 | Auto-déclaré |
| 16 | Qwen3.5-35B-A3B | Qwen | 80,4 % | 24 février 2026 | Auto-déclaré |
| 17 | Qwen3 VL 235B A22B Thinking | Qwen | 80,0 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 32B Thinking | Qwen | 79,0 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 30B A3B Thinking | Qwen | 75,0 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 235B A22B Instruct | Qwen | 74,7 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 26 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 82,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur VideoMMMU indique qu’un modèle parvient à acquérir des connaissances depuis des vidéos expertes, puis à répondre correctement à des questions alignées sur différents niveaux cognitifs. L’accuracy mesure la justesse des réponses, tandis que Delta-knowledge cherche à quantifier le gain de connaissance apporté par l’exposition aux vidéos. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le niveau médian élevé, 83 %, suggère aussi un risque de saturation progressive pour les meilleurs systèmes, même si l’écart avec Gemini 3 Pro, annoncé à 88 %, laisse encore une marge de différenciation. Les limites tiennent également à la portée du corpus, centré sur l’anglais et sur des vidéos professionnelles couvrant six disciplines, ainsi qu’au risque général de contamination des données. Le classement met surtout en évidence la maturité croissante des modèles multimodaux sur des tâches vidéo structurées et expertes.
Sources des scores : llm-stats.