Recherche & embeddings

MVEB Video-Text

MTEB: MVEB Video-Text est un benchmark public consacré à l’évaluation des embeddings texte-vidéo. Créé par MTEB, embeddings-benchmark, avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., il s’inscrit dans l’écosystème MVEB et cible les modèles dépourvus d’encodeur audio.

Le benchmark mesure la capacité d’un modèle à produire des représentations utiles pour relier du texte et de la vidéo, notamment en récupération, classification, clustering, classification pair/zero-shot et QA centrée vidéo. Il sert à comparer la robustesse des embeddings multimodaux sur des usages proches de la recherche et de l’analyse vidéo.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	MTEB (embeddings-benchmark) - El Assadi, Solomatin, Muennighoff, Enevoldsen et al.
Capacités mesurées	Qualite des embeddings texte-video : recuperation, classification, clustering, pair/zero-shot classification et QA centree video, pour modeles sans encodeur audio
Modalité	text,video
Type de questions	Embeddings texte-video (retrieval, classification, clustering, pair/zero-shot classification, QA video)
Métrique d'évaluation	Variable selon la tache (NDCG, accuracy, etc.)
Accès	Public
Langues	principalement anglais
Taille du jeu	Sous-ensemble texte-video de MVEB (23 taches au total dans MVEB)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen/Qwen3-VL-Embedding-8B	Qwen	60,9 %	8 janvier 2026	✅ Mesuré
2	Qwen/Qwen3-VL-Embedding-2B	Qwen	58,1 %	8 janvier 2026	✅ Mesuré
3	LCO-Embedding/LCO-Embedding-Omni-7B	LCO-Embedding	56,8 %	15 octobre 2025	✅ Mesuré
4	LCO-Embedding/LCO-Embedding-Omni-3B	LCO-Embedding	54,8 %	23 octobre 2025	✅ Mesuré
5	Haon-Chen/e5-omni-7B	Haon-Chen	54,1 %	6 janvier 2026	✅ Mesuré
6	encord-team/ebind-points-vision	encord-team	53,8 %	19 novembre 2025	✅ Mesuré
7	encord-team/ebind-audio-vision	encord-team	53,8 %	19 novembre 2025	✅ Mesuré
8	encord-team/ebind-full	encord-team	53,8 %	19 novembre 2025	✅ Mesuré
9	zhibinlan/UME-R1-7B	zhibinlan	53,3 %	10 novembre 2025	✅ Mesuré
10	facebook/pe-av-large	Facebook	52,4 %	22 décembre 2025	✅ Mesuré
11	zhibinlan/UME-R1-2B	zhibinlan	51,5 %	10 novembre 2025	✅ Mesuré
12	Tevatron/OmniEmbed-v0.1	Tevatron	51,3 %	12 avril 2025	✅ Mesuré
13	facebook/pe-av-small	Facebook	50,2 %	22 décembre 2025	✅ Mesuré
14	facebook/pe-av-base	Facebook	49,7 %	22 décembre 2025	✅ Mesuré
15	Haon-Chen/e5-omni-3B	Haon-Chen	48,4 %	6 janvier 2026	✅ Mesuré
16	VLM2Vec/VLM2Vec-V2.0	VLM2Vec	44,9 %	30 avril 2025	✅ Mesuré
17	microsoft/xclip-large-patch14	Microsoft	42,9 %	4 août 2022	✅ Mesuré
18	microsoft/xclip-base-patch16	Microsoft	38,4 %	4 août 2022	✅ Mesuré
19	microsoft/xclip-base-patch32	Microsoft	35,9 %	4 août 2022	✅ Mesuré
20	nvidia/omni-embed-nemotron-3b	NVIDIA	35,8 %	1 octobre 2025	✅ Mesuré

Classement établi sur 24 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 50,8 %.

Notre analyse

Un score élevé sur MTEB: MVEB Video-Text indique qu’un modèle aligne efficacement informations visuelles et requêtes textuelles dans plusieurs cadres d’évaluation, de la récupération à la QA vidéo. Le meilleur score recensé dans la base, obtenu par Qwen/Qwen3-VL-Embedding-8B, se situe au-dessus d’une médiane de 51 %, ce qui suggère un écart mesurable entre les modèles les plus performants et le centre du classement. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, avec une fiabilité potentiellement moins homogène qu’une évaluation entièrement reproduite par un tiers. Les limites tiennent aussi à la portée du benchmark, principalement anglophone et centré sur le sous-ensemble texte-vidéo de MVEB, ainsi qu’aux risques généraux des benchmarks publics, comme la saturation progressive ou la contamination des données. Le classement met surtout en évidence la maturité relative des embeddings texte-vidéo sans audio, plutôt qu’une mesure complète de compréhension multimodale universelle.

Sources des scores : mteb.

MVEB Video-Text

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23