MVEB
MTEB: MVEB est un benchmark du projet MTEB / embeddings-benchmark, associé notamment à El Assadi, Solomatin, Muennighoff et Enevoldsen. Publié en 2026, il évalue la qualité des embeddings vidéo audio-visuels, c’est-à-dire la capacité d’un modèle à produire des représentations…
MTEB: MVEB est un benchmark du projet MTEB / embeddings-benchmark, associé notamment à El Assadi, Solomatin, Muennighoff et Enevoldsen. Publié en 2026, il évalue la qualité des embeddings vidéo audio-visuels, c’est-à-dire la capacité d’un modèle à produire des représentations exploitables de contenus combinant image, mouvement et son.
Le benchmark couvre plusieurs usages centraux des embeddings multimodaux, dont la recherche, la classification, le clustering, la comparaison de paires, la classification zero-shot et la QA centrée vidéo. Il sert ainsi de repère pour comparer des modèles capables de traiter conjointement les signaux audio et vidéo.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Projet MTEB / embeddings-benchmark (El Assadi, Solomatin, … Muennighoff, Enevoldsen) |
| Capacités mesurées | Qualité des embeddings vidéo audio-visuels sur retrieval, classification, clustering, pair classification, classification zero-shot et QA centrée vidéo. |
| Modalité | audio,text,video |
| Type de questions | Embedding vidéo audio-visuel (retrieval, classification, clustering, pair classification, zero-shot, QA vidéo) |
| Métrique d'évaluation | Score dépendant de la tâche, agrégé |
| Accès | Public |
| Langues | principalement anglais |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | LCO-Embedding/LCO-Embedding-Omni-7B | LCO-Embedding | 57,6 % | 15 octobre 2025 | ✅ Mesuré |
| 2 | encord-team/ebind-audio-vision | encord-team | 55,5 % | 19 novembre 2025 | ✅ Mesuré |
| 3 | encord-team/ebind-full | encord-team | 55,5 % | 19 novembre 2025 | ✅ Mesuré |
| 4 | Haon-Chen/e5-omni-7B | Haon-Chen | 55,0 % | 6 janvier 2026 | ✅ Mesuré |
| 5 | LCO-Embedding/LCO-Embedding-Omni-3B | LCO-Embedding | 54,6 % | 23 octobre 2025 | ✅ Mesuré |
| 6 | facebook/pe-av-large | 54,3 % | 22 décembre 2025 | ✅ Mesuré | |
| 7 | facebook/pe-av-base | 53,1 % | 22 décembre 2025 | ✅ Mesuré | |
| 8 | Tevatron/OmniEmbed-v0.1 | Tevatron | 52,9 % | 12 avril 2025 | ✅ Mesuré |
| 9 | facebook/pe-av-small | 52,2 % | 22 décembre 2025 | ✅ Mesuré | |
| 10 | BidirLM/BidirLM-Omni-2.5B-Embedding | BidirLM | 51,2 % | 7 avril 2026 | ✅ Mesuré |
| 11 | Haon-Chen/e5-omni-3B | Haon-Chen | 48,5 % | 6 janvier 2026 | ✅ Mesuré |
| 12 | nvidia/omni-embed-nemotron-3b | NVIDIA | 42,8 % | 1 octobre 2025 | ✅ Mesuré |
| 13 | jinaai/jina-embeddings-v5-omni-nano | jinaai | 20,8 % | 1 avril 2026 | ✅ Mesuré |
| 14 | jinaai/jina-embeddings-v5-omni-small | jinaai | 19,4 % | 1 avril 2026 | ✅ Mesuré |
| 15 | Qwen2.5-Omni-7B | Qwen | 12,8 % | 27 mars 2025 | ✅ Mesuré |
| 16 | Qwen/Qwen2.5-Omni-3B | Qwen | 11,4 % | 30 avril 2025 | ✅ Mesuré |
Classement établi sur 16 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 52,6 %.
Notre analyse
Un score élevé sur MTEB: MVEB indique qu’un modèle produit des embeddings vidéo audio-visuels utiles dans des contextes variés, pas seulement sur une tâche isolée. La métrique étant dépendante de chaque tâche puis agrégée, le résultat reflète une performance globale sur plusieurs formes d’évaluation, de la recherche à la QA vidéo. Dans la base considérée, 16 modèles sont évalués, avec un score médian de 53 % et un meilleur résultat de 58 % pour LCO-Embedding/LCO-Embedding-Omni-7B (LCO-Embedding), ce qui suggère un écart mesuré mais non massif entre le centre du classement et la tête.
La lecture du classement doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite et contrôlée. Les limites classiques des benchmarks s’appliquent aussi : possible saturation si les modèles convergent sur les tâches, risque de contamination selon l’exposition aux données, et portée principalement anglophone. MVEB reste surtout pertinent pour juger la qualité d’embeddings audio-visuels conjoints, moins pour évaluer l’ensemble des capacités multimodales d’un modèle.
Sources des scores : mteb.