MVEB Video-Text

MTEB: MVEB Video-Text est un benchmark public consacré à l’évaluation des embeddings texte-vidéo. Créé par MTEB, embeddings-benchmark, avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., il s’inscrit dans l’écosystème MVEB et cible les modèles dépourvus d’encodeur audio.

MTEB: MVEB Video-Text est un benchmark public consacré à l’évaluation des embeddings texte-vidéo. Créé par MTEB, embeddings-benchmark, avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., il s’inscrit dans l’écosystème MVEB et cible les modèles dépourvus d’encodeur audio.

Le benchmark mesure la capacité d’un modèle à produire des représentations utiles pour relier du texte et de la vidéo, notamment en récupération, classification, clustering, classification pair/zero-shot et QA centrée vidéo. Il sert à comparer la robustesse des embeddings multimodaux sur des usages proches de la recherche et de l’analyse vidéo.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMTEB (embeddings-benchmark) - El Assadi, Solomatin, Muennighoff, Enevoldsen et al.
Capacités mesuréesQualite des embeddings texte-video : recuperation, classification, clustering, pair/zero-shot classification et QA centree video, pour modeles sans encodeur audio
Modalitétext,video
Type de questionsEmbeddings texte-video (retrieval, classification, clustering, pair/zero-shot classification, QA video)
Métrique d'évaluationVariable selon la tache (NDCG, accuracy, etc.)
AccèsPublic
Languesprincipalement anglais
Taille du jeuSous-ensemble texte-video de MVEB (23 taches au total dans MVEB)
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen/Qwen3-VL-Embedding-8BQwen60,9 %8 janvier 2026✅ Mesuré
2Qwen/Qwen3-VL-Embedding-2BQwen58,1 %8 janvier 2026✅ Mesuré
3LCO-Embedding/LCO-Embedding-Omni-7BLCO-Embedding56,8 %15 octobre 2025✅ Mesuré
4LCO-Embedding/LCO-Embedding-Omni-3BLCO-Embedding54,8 %23 octobre 2025✅ Mesuré
5Haon-Chen/e5-omni-7BHaon-Chen54,1 %6 janvier 2026✅ Mesuré
6encord-team/ebind-points-visionencord-team53,8 %19 novembre 2025✅ Mesuré
7encord-team/ebind-audio-visionencord-team53,8 %19 novembre 2025✅ Mesuré
8encord-team/ebind-fullencord-team53,8 %19 novembre 2025✅ Mesuré
9zhibinlan/UME-R1-7Bzhibinlan53,3 %10 novembre 2025✅ Mesuré
10facebook/pe-av-largeFacebook52,4 %22 décembre 2025✅ Mesuré
11zhibinlan/UME-R1-2Bzhibinlan51,5 %10 novembre 2025✅ Mesuré
12Tevatron/OmniEmbed-v0.1Tevatron51,3 %12 avril 2025✅ Mesuré
13facebook/pe-av-smallFacebook50,2 %22 décembre 2025✅ Mesuré
14facebook/pe-av-baseFacebook49,7 %22 décembre 2025✅ Mesuré
15Haon-Chen/e5-omni-3BHaon-Chen48,4 %6 janvier 2026✅ Mesuré
16VLM2Vec/VLM2Vec-V2.0VLM2Vec44,9 %30 avril 2025✅ Mesuré
17microsoft/xclip-large-patch14Microsoft42,9 %4 août 2022✅ Mesuré
18microsoft/xclip-base-patch16Microsoft38,4 %4 août 2022✅ Mesuré
19microsoft/xclip-base-patch32Microsoft35,9 %4 août 2022✅ Mesuré
20nvidia/omni-embed-nemotron-3bNVIDIA35,8 %1 octobre 2025✅ Mesuré

Classement établi sur 24 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 50,8 %.

Notre analyse

Un score élevé sur MTEB: MVEB Video-Text indique qu’un modèle aligne efficacement informations visuelles et requêtes textuelles dans plusieurs cadres d’évaluation, de la récupération à la QA vidéo. Le meilleur score recensé dans la base, obtenu par Qwen/Qwen3-VL-Embedding-8B, se situe au-dessus d’une médiane de 51 %, ce qui suggère un écart mesurable entre les modèles les plus performants et le centre du classement. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, avec une fiabilité potentiellement moins homogène qu’une évaluation entièrement reproduite par un tiers. Les limites tiennent aussi à la portée du benchmark, principalement anglophone et centré sur le sous-ensemble texte-vidéo de MVEB, ainsi qu’aux risques généraux des benchmarks publics, comme la saturation progressive ou la contamination des données. Le classement met surtout en évidence la maturité relative des embeddings texte-vidéo sans audio, plutôt qu’une mesure complète de compréhension multimodale universelle.


Sources des scores : mteb.