MVEB Video-Only
MTEB: MVEB Video-Only est un benchmark public consacré à l’évaluation des embeddings vidéo, dans le cadre de l’écosystème MTEB. Il a été créé par MTEB (embeddings-benchmark), avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., pour isoler les performances d’encodeurs vidéo…
MTEB: MVEB Video-Only est un benchmark public consacré à l’évaluation des embeddings vidéo, dans le cadre de l’écosystème MTEB. Il a été créé par MTEB (embeddings-benchmark), avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., pour isoler les performances d’encodeurs vidéo dépourvus de composant texte.
Le benchmark mesure la qualité des représentations vidéo sur des tâches de classification et de pair classification. Son rôle est de comparer la capacité des modèles à produire des embeddings utiles pour regrouper, distinguer ou rapprocher des contenus vidéo, sans s’appuyer sur le langage.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | MTEB (embeddings-benchmark) - El Assadi, Solomatin, Muennighoff, Enevoldsen et al. |
| Capacités mesurées | Qualite des embeddings video pour encodeurs sans composant texte : classification et pair classification |
| Modalité | Vidéo |
| Type de questions | Embeddings video (classification, pair classification) |
| Métrique d'évaluation | Variable selon la tache (accuracy, etc.) |
| Accès | Public |
| Langues | non linguistique / vidéo seule |
| Taille du jeu | Sous-ensemble video-seule de MVEB (23 taches au total dans MVEB) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen/Qwen3-VL-Embedding-8B | Qwen | 63,5 % | 8 janvier 2026 | ✅ Mesuré |
| 2 | Qwen/Qwen3-VL-Embedding-2B | Qwen | 62,3 % | 8 janvier 2026 | ✅ Mesuré |
| 3 | LCO-Embedding/LCO-Embedding-Omni-7B | LCO-Embedding | 61,7 % | 15 octobre 2025 | ✅ Mesuré |
| 4 | LCO-Embedding/LCO-Embedding-Omni-3B | LCO-Embedding | 61,6 % | 23 octobre 2025 | ✅ Mesuré |
| 5 | microsoft/xclip-large-patch14 | Microsoft | 58,6 % | 4 août 2022 | ✅ Mesuré |
| 6 | BidirLM/BidirLM-Omni-2.5B-Embedding | BidirLM | 58,0 % | 7 avril 2026 | ✅ Mesuré |
| 7 | Tevatron/OmniEmbed-v0.1 | Tevatron | 57,9 % | 12 avril 2025 | ✅ Mesuré |
| 8 | zhibinlan/UME-R1-7B | zhibinlan | 57,5 % | 10 novembre 2025 | ✅ Mesuré |
| 9 | zhibinlan/UME-R1-2B | zhibinlan | 57,4 % | 10 novembre 2025 | ✅ Mesuré |
| 10 | encord-team/ebind-points-vision | encord-team | 55,8 % | 19 novembre 2025 | ✅ Mesuré |
| 11 | encord-team/ebind-audio-vision | encord-team | 55,8 % | 19 novembre 2025 | ✅ Mesuré |
| 12 | encord-team/ebind-full | encord-team | 55,8 % | 19 novembre 2025 | ✅ Mesuré |
| 13 | Haon-Chen/e5-omni-7B | Haon-Chen | 55,7 % | 6 janvier 2026 | ✅ Mesuré |
| 14 | Haon-Chen/e5-omni-3B | Haon-Chen | 55,7 % | 6 janvier 2026 | ✅ Mesuré |
| 15 | microsoft/xclip-base-patch16 | Microsoft | 55,6 % | 4 août 2022 | ✅ Mesuré |
| 16 | facebook/pe-av-large | 55,2 % | 22 décembre 2025 | ✅ Mesuré | |
| 17 | nvidia/omni-embed-nemotron-3b | NVIDIA | 54,7 % | 1 octobre 2025 | ✅ Mesuré |
| 18 | facebook/pe-av-base | 53,8 % | 22 décembre 2025 | ✅ Mesuré | |
| 19 | facebook/pe-av-small | 53,3 % | 22 décembre 2025 | ✅ Mesuré | |
| 20 | microsoft/xclip-base-patch32 | Microsoft | 53,0 % | 4 août 2022 | ✅ Mesuré |
Classement établi sur 33 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 54,7 %.
Notre analyse
Un score élevé sur MTEB: MVEB Video-Only indique qu’un modèle produit des embeddings vidéo discriminants, capables de soutenir efficacement des tâches de classification et de comparaison par paires. L’évaluation reste toutefois à lire avec prudence, car les métriques varient selon les tâches et les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites de manière indépendante.
- Portée: le benchmark cible uniquement la vidéo sans texte. Les tâches de retrieval, QA et zero-shot sont exclues, car elles nécessitent un encodeur texte.
- Saturation: l’écart entre le score médian et le meilleur score suggère encore une marge de progression, sans prouver à lui seul l’absence de saturation sur certaines tâches.
- Contamination: l’accès public peut favoriser l’optimisation spécifique au benchmark, un risque renforcé lorsque les résultats sont auto-déclarés.
Le classement met en tête Qwen/Qwen3-VL-Embedding-8B, tandis que le niveau médian reste sensiblement inférieur, ce qui signale une hiérarchie nette mais centrée sur un périmètre vidéo-seul.
Sources des scores : mteb.