MVEB Video-Only

MTEB: MVEB Video-Only est un benchmark public consacré à l’évaluation des embeddings vidéo, dans le cadre de l’écosystème MTEB. Il a été créé par MTEB (embeddings-benchmark), avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., pour isoler les performances d’encodeurs vidéo…

MTEB: MVEB Video-Only est un benchmark public consacré à l’évaluation des embeddings vidéo, dans le cadre de l’écosystème MTEB. Il a été créé par MTEB (embeddings-benchmark), avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., pour isoler les performances d’encodeurs vidéo dépourvus de composant texte.

Le benchmark mesure la qualité des représentations vidéo sur des tâches de classification et de pair classification. Son rôle est de comparer la capacité des modèles à produire des embeddings utiles pour regrouper, distinguer ou rapprocher des contenus vidéo, sans s’appuyer sur le langage.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMTEB (embeddings-benchmark) - El Assadi, Solomatin, Muennighoff, Enevoldsen et al.
Capacités mesuréesQualite des embeddings video pour encodeurs sans composant texte : classification et pair classification
ModalitéVidéo
Type de questionsEmbeddings video (classification, pair classification)
Métrique d'évaluationVariable selon la tache (accuracy, etc.)
AccèsPublic
Languesnon linguistique / vidéo seule
Taille du jeuSous-ensemble video-seule de MVEB (23 taches au total dans MVEB)
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen/Qwen3-VL-Embedding-8BQwen63,5 %8 janvier 2026✅ Mesuré
2Qwen/Qwen3-VL-Embedding-2BQwen62,3 %8 janvier 2026✅ Mesuré
3LCO-Embedding/LCO-Embedding-Omni-7BLCO-Embedding61,7 %15 octobre 2025✅ Mesuré
4LCO-Embedding/LCO-Embedding-Omni-3BLCO-Embedding61,6 %23 octobre 2025✅ Mesuré
5microsoft/xclip-large-patch14Microsoft58,6 %4 août 2022✅ Mesuré
6BidirLM/BidirLM-Omni-2.5B-EmbeddingBidirLM58,0 %7 avril 2026✅ Mesuré
7Tevatron/OmniEmbed-v0.1Tevatron57,9 %12 avril 2025✅ Mesuré
8zhibinlan/UME-R1-7Bzhibinlan57,5 %10 novembre 2025✅ Mesuré
9zhibinlan/UME-R1-2Bzhibinlan57,4 %10 novembre 2025✅ Mesuré
10encord-team/ebind-points-visionencord-team55,8 %19 novembre 2025✅ Mesuré
11encord-team/ebind-audio-visionencord-team55,8 %19 novembre 2025✅ Mesuré
12encord-team/ebind-fullencord-team55,8 %19 novembre 2025✅ Mesuré
13Haon-Chen/e5-omni-7BHaon-Chen55,7 %6 janvier 2026✅ Mesuré
14Haon-Chen/e5-omni-3BHaon-Chen55,7 %6 janvier 2026✅ Mesuré
15microsoft/xclip-base-patch16Microsoft55,6 %4 août 2022✅ Mesuré
16facebook/pe-av-largeFacebook55,2 %22 décembre 2025✅ Mesuré
17nvidia/omni-embed-nemotron-3bNVIDIA54,7 %1 octobre 2025✅ Mesuré
18facebook/pe-av-baseFacebook53,8 %22 décembre 2025✅ Mesuré
19facebook/pe-av-smallFacebook53,3 %22 décembre 2025✅ Mesuré
20microsoft/xclip-base-patch32Microsoft53,0 %4 août 2022✅ Mesuré

Classement établi sur 33 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 54,7 %.

Notre analyse

Un score élevé sur MTEB: MVEB Video-Only indique qu’un modèle produit des embeddings vidéo discriminants, capables de soutenir efficacement des tâches de classification et de comparaison par paires. L’évaluation reste toutefois à lire avec prudence, car les métriques varient selon les tâches et les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites de manière indépendante.

  • Portée: le benchmark cible uniquement la vidéo sans texte. Les tâches de retrieval, QA et zero-shot sont exclues, car elles nécessitent un encodeur texte.
  • Saturation: l’écart entre le score médian et le meilleur score suggère encore une marge de progression, sans prouver à lui seul l’absence de saturation sur certaines tâches.
  • Contamination: l’accès public peut favoriser l’optimisation spécifique au benchmark, un risque renforcé lorsque les résultats sont auto-déclarés.

Le classement met en tête Qwen/Qwen3-VL-Embedding-8B, tandis que le niveau médian reste sensiblement inférieur, ce qui signale une hiérarchie nette mais centrée sur un périmètre vidéo-seul.


Sources des scores : mteb.