Recherche & embeddings

MVEB

MTEB: MVEB est un benchmark du projet MTEB / embeddings-benchmark, associé notamment à El Assadi, Solomatin, Muennighoff et Enevoldsen. Publié en 2026, il évalue la qualité des embeddings vidéo audio-visuels, c’est-à-dire la capacité d’un modèle à produire des représentations…

Le benchmark couvre plusieurs usages centraux des embeddings multimodaux, dont la recherche, la classification, le clustering, la comparaison de paires, la classification zero-shot et la QA centrée vidéo. Il sert ainsi de repère pour comparer des modèles capables de traiter conjointement les signaux audio et vidéo.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Projet MTEB / embeddings-benchmark (El Assadi, Solomatin, … Muennighoff, Enevoldsen)
Capacités mesurées	Qualité des embeddings vidéo audio-visuels sur retrieval, classification, clustering, pair classification, classification zero-shot et QA centrée vidéo.
Modalité	audio,text,video
Type de questions	Embedding vidéo audio-visuel (retrieval, classification, clustering, pair classification, zero-shot, QA vidéo)
Métrique d'évaluation	Score dépendant de la tâche, agrégé
Accès	Public
Langues	principalement anglais
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	LCO-Embedding/LCO-Embedding-Omni-7B	LCO-Embedding	57,6 %	15 octobre 2025	✅ Mesuré
2	encord-team/ebind-audio-vision	encord-team	55,5 %	19 novembre 2025	✅ Mesuré
3	encord-team/ebind-full	encord-team	55,5 %	19 novembre 2025	✅ Mesuré
4	Haon-Chen/e5-omni-7B	Haon-Chen	55,0 %	6 janvier 2026	✅ Mesuré
5	LCO-Embedding/LCO-Embedding-Omni-3B	LCO-Embedding	54,6 %	23 octobre 2025	✅ Mesuré
6	facebook/pe-av-large	Facebook	54,3 %	22 décembre 2025	✅ Mesuré
7	facebook/pe-av-base	Facebook	53,1 %	22 décembre 2025	✅ Mesuré
8	Tevatron/OmniEmbed-v0.1	Tevatron	52,9 %	12 avril 2025	✅ Mesuré
9	facebook/pe-av-small	Facebook	52,2 %	22 décembre 2025	✅ Mesuré
10	BidirLM/BidirLM-Omni-2.5B-Embedding	BidirLM	51,2 %	7 avril 2026	✅ Mesuré
11	Haon-Chen/e5-omni-3B	Haon-Chen	48,5 %	6 janvier 2026	✅ Mesuré
12	nvidia/omni-embed-nemotron-3b	NVIDIA	42,8 %	1 octobre 2025	✅ Mesuré
13	jinaai/jina-embeddings-v5-omni-nano	jinaai	20,8 %	1 avril 2026	✅ Mesuré
14	jinaai/jina-embeddings-v5-omni-small	jinaai	19,4 %	1 avril 2026	✅ Mesuré
15	Qwen2.5-Omni-7B	Qwen	12,8 %	27 mars 2025	✅ Mesuré
16	Qwen/Qwen2.5-Omni-3B	Qwen	11,4 %	30 avril 2025	✅ Mesuré

Classement établi sur 16 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 52,6 %.

Notre analyse

Un score élevé sur MTEB: MVEB indique qu’un modèle produit des embeddings vidéo audio-visuels utiles dans des contextes variés, pas seulement sur une tâche isolée. La métrique étant dépendante de chaque tâche puis agrégée, le résultat reflète une performance globale sur plusieurs formes d’évaluation, de la recherche à la QA vidéo. Dans la base considérée, 16 modèles sont évalués, avec un score médian de 53 % et un meilleur résultat de 58 % pour LCO-Embedding/LCO-Embedding-Omni-7B (LCO-Embedding), ce qui suggère un écart mesuré mais non massif entre le centre du classement et la tête.

La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite et contrôlée. Les limites classiques des benchmarks s’appliquent aussi : possible saturation si les modèles convergent sur les tâches, risque de contamination selon l’exposition aux données, et portée principalement anglophone. MVEB reste surtout pertinent pour juger la qualité d’embeddings audio-visuels conjoints, moins pour évaluer l’ensemble des capacités multimodales d’un modèle.

Sources des scores : mteb.

MVEB

Carte d'identité

Classement des modèles (top 16)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench