MVEB

MTEB: MVEB est un benchmark du projet MTEB / embeddings-benchmark, associé notamment à El Assadi, Solomatin, Muennighoff et Enevoldsen. Publié en 2026, il évalue la qualité des embeddings vidéo audio-visuels, c’est-à-dire la capacité d’un modèle à produire des représentations…

MTEB: MVEB est un benchmark du projet MTEB / embeddings-benchmark, associé notamment à El Assadi, Solomatin, Muennighoff et Enevoldsen. Publié en 2026, il évalue la qualité des embeddings vidéo audio-visuels, c’est-à-dire la capacité d’un modèle à produire des représentations exploitables de contenus combinant image, mouvement et son.

Le benchmark couvre plusieurs usages centraux des embeddings multimodaux, dont la recherche, la classification, le clustering, la comparaison de paires, la classification zero-shot et la QA centrée vidéo. Il sert ainsi de repère pour comparer des modèles capables de traiter conjointement les signaux audio et vidéo.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkProjet MTEB / embeddings-benchmark (El Assadi, Solomatin, … Muennighoff, Enevoldsen)
Capacités mesuréesQualité des embeddings vidéo audio-visuels sur retrieval, classification, clustering, pair classification, classification zero-shot et QA centrée vidéo.
Modalitéaudio,text,video
Type de questionsEmbedding vidéo audio-visuel (retrieval, classification, clustering, pair classification, zero-shot, QA vidéo)
Métrique d'évaluationScore dépendant de la tâche, agrégé
AccèsPublic
Languesprincipalement anglais
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#ModèleÉditeurScoreSortieFiabilité
1LCO-Embedding/LCO-Embedding-Omni-7BLCO-Embedding57,6 %15 octobre 2025✅ Mesuré
2encord-team/ebind-audio-visionencord-team55,5 %19 novembre 2025✅ Mesuré
3encord-team/ebind-fullencord-team55,5 %19 novembre 2025✅ Mesuré
4Haon-Chen/e5-omni-7BHaon-Chen55,0 %6 janvier 2026✅ Mesuré
5LCO-Embedding/LCO-Embedding-Omni-3BLCO-Embedding54,6 %23 octobre 2025✅ Mesuré
6facebook/pe-av-largeFacebook54,3 %22 décembre 2025✅ Mesuré
7facebook/pe-av-baseFacebook53,1 %22 décembre 2025✅ Mesuré
8Tevatron/OmniEmbed-v0.1Tevatron52,9 %12 avril 2025✅ Mesuré
9facebook/pe-av-smallFacebook52,2 %22 décembre 2025✅ Mesuré
10BidirLM/BidirLM-Omni-2.5B-EmbeddingBidirLM51,2 %7 avril 2026✅ Mesuré
11Haon-Chen/e5-omni-3BHaon-Chen48,5 %6 janvier 2026✅ Mesuré
12nvidia/omni-embed-nemotron-3bNVIDIA42,8 %1 octobre 2025✅ Mesuré
13jinaai/jina-embeddings-v5-omni-nanojinaai20,8 %1 avril 2026✅ Mesuré
14jinaai/jina-embeddings-v5-omni-smalljinaai19,4 %1 avril 2026✅ Mesuré
15Qwen2.5-Omni-7BQwen12,8 %27 mars 2025✅ Mesuré
16Qwen/Qwen2.5-Omni-3BQwen11,4 %30 avril 2025✅ Mesuré

Classement établi sur 16 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 52,6 %.

Notre analyse

Un score élevé sur MTEB: MVEB indique qu’un modèle produit des embeddings vidéo audio-visuels utiles dans des contextes variés, pas seulement sur une tâche isolée. La métrique étant dépendante de chaque tâche puis agrégée, le résultat reflète une performance globale sur plusieurs formes d’évaluation, de la recherche à la QA vidéo. Dans la base considérée, 16 modèles sont évalués, avec un score médian de 53 % et un meilleur résultat de 58 % pour LCO-Embedding/LCO-Embedding-Omni-7B (LCO-Embedding), ce qui suggère un écart mesuré mais non massif entre le centre du classement et la tête.

La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite et contrôlée. Les limites classiques des benchmarks s’appliquent aussi : possible saturation si les modèles convergent sur les tâches, risque de contamination selon l’exposition aux données, et portée principalement anglophone. MVEB reste surtout pertinent pour juger la qualité d’embeddings audio-visuels conjoints, moins pour évaluer l’ensemble des capacités multimodales d’un modèle.


Sources des scores : mteb.