Recherche & embeddings

MVEB Video-Only

MTEB: MVEB Video-Only est un benchmark public consacré à l’évaluation des embeddings vidéo, dans le cadre de l’écosystème MTEB. Il a été créé par MTEB (embeddings-benchmark), avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., pour isoler les performances d’encodeurs vidéo…

Le benchmark mesure la qualité des représentations vidéo sur des tâches de classification et de pair classification. Son rôle est de comparer la capacité des modèles à produire des embeddings utiles pour regrouper, distinguer ou rapprocher des contenus vidéo, sans s’appuyer sur le langage.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	MTEB (embeddings-benchmark) - El Assadi, Solomatin, Muennighoff, Enevoldsen et al.
Capacités mesurées	Qualite des embeddings video pour encodeurs sans composant texte : classification et pair classification
Modalité	Vidéo
Type de questions	Embeddings video (classification, pair classification)
Métrique d'évaluation	Variable selon la tache (accuracy, etc.)
Accès	Public
Langues	non linguistique / vidéo seule
Taille du jeu	Sous-ensemble video-seule de MVEB (23 taches au total dans MVEB)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen/Qwen3-VL-Embedding-8B	Qwen	63,5 %	8 janvier 2026	✅ Mesuré
2	Qwen/Qwen3-VL-Embedding-2B	Qwen	62,3 %	8 janvier 2026	✅ Mesuré
3	LCO-Embedding/LCO-Embedding-Omni-7B	LCO-Embedding	61,7 %	15 octobre 2025	✅ Mesuré
4	LCO-Embedding/LCO-Embedding-Omni-3B	LCO-Embedding	61,6 %	23 octobre 2025	✅ Mesuré
5	microsoft/xclip-large-patch14	Microsoft	58,6 %	4 août 2022	✅ Mesuré
6	BidirLM/BidirLM-Omni-2.5B-Embedding	BidirLM	58,0 %	7 avril 2026	✅ Mesuré
7	Tevatron/OmniEmbed-v0.1	Tevatron	57,9 %	12 avril 2025	✅ Mesuré
8	zhibinlan/UME-R1-7B	zhibinlan	57,5 %	10 novembre 2025	✅ Mesuré
9	zhibinlan/UME-R1-2B	zhibinlan	57,4 %	10 novembre 2025	✅ Mesuré
10	encord-team/ebind-points-vision	encord-team	55,8 %	19 novembre 2025	✅ Mesuré
11	encord-team/ebind-audio-vision	encord-team	55,8 %	19 novembre 2025	✅ Mesuré
12	encord-team/ebind-full	encord-team	55,8 %	19 novembre 2025	✅ Mesuré
13	Haon-Chen/e5-omni-7B	Haon-Chen	55,7 %	6 janvier 2026	✅ Mesuré
14	Haon-Chen/e5-omni-3B	Haon-Chen	55,7 %	6 janvier 2026	✅ Mesuré
15	microsoft/xclip-base-patch16	Microsoft	55,6 %	4 août 2022	✅ Mesuré
16	facebook/pe-av-large	Facebook	55,2 %	22 décembre 2025	✅ Mesuré
17	nvidia/omni-embed-nemotron-3b	NVIDIA	54,7 %	1 octobre 2025	✅ Mesuré
18	facebook/pe-av-base	Facebook	53,8 %	22 décembre 2025	✅ Mesuré
19	facebook/pe-av-small	Facebook	53,3 %	22 décembre 2025	✅ Mesuré
20	microsoft/xclip-base-patch32	Microsoft	53,0 %	4 août 2022	✅ Mesuré

Classement établi sur 33 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 54,7 %.

Notre analyse

Un score élevé sur MTEB: MVEB Video-Only indique qu’un modèle produit des embeddings vidéo discriminants, capables de soutenir efficacement des tâches de classification et de comparaison par paires. L’évaluation reste toutefois à lire avec prudence, car les métriques varient selon les tâches et les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites de manière indépendante.

Portée: le benchmark cible uniquement la vidéo sans texte. Les tâches de retrieval, QA et zero-shot sont exclues, car elles nécessitent un encodeur texte.
Saturation: l’écart entre le score médian et le meilleur score suggère encore une marge de progression, sans prouver à lui seul l’absence de saturation sur certaines tâches.
Contamination: l’accès public peut favoriser l’optimisation spécifique au benchmark, un risque renforcé lorsque les résultats sont auto-déclarés.

Le classement met en tête Qwen/Qwen3-VL-Embedding-8B, tandis que le niveau médian reste sensiblement inférieur, ce qui signale une hiérarchie nette mais centrée sur un périmètre vidéo-seul.

Sources des scores : mteb.

MVEB Video-Only

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench