MVEB Video-Text
MTEB: MVEB Video-Text est un benchmark public consacré à l’évaluation des embeddings texte-vidéo. Créé par MTEB, embeddings-benchmark, avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., il s’inscrit dans l’écosystème MVEB et cible les modèles dépourvus d’encodeur audio.
MTEB: MVEB Video-Text est un benchmark public consacré à l’évaluation des embeddings texte-vidéo. Créé par MTEB, embeddings-benchmark, avec El Assadi, Solomatin, Muennighoff, Enevoldsen et al., il s’inscrit dans l’écosystème MVEB et cible les modèles dépourvus d’encodeur audio.
Le benchmark mesure la capacité d’un modèle à produire des représentations utiles pour relier du texte et de la vidéo, notamment en récupération, classification, clustering, classification pair/zero-shot et QA centrée vidéo. Il sert à comparer la robustesse des embeddings multimodaux sur des usages proches de la recherche et de l’analyse vidéo.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | MTEB (embeddings-benchmark) - El Assadi, Solomatin, Muennighoff, Enevoldsen et al. |
| Capacités mesurées | Qualite des embeddings texte-video : recuperation, classification, clustering, pair/zero-shot classification et QA centree video, pour modeles sans encodeur audio |
| Modalité | text,video |
| Type de questions | Embeddings texte-video (retrieval, classification, clustering, pair/zero-shot classification, QA video) |
| Métrique d'évaluation | Variable selon la tache (NDCG, accuracy, etc.) |
| Accès | Public |
| Langues | principalement anglais |
| Taille du jeu | Sous-ensemble texte-video de MVEB (23 taches au total dans MVEB) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen/Qwen3-VL-Embedding-8B | Qwen | 60,9 % | 8 janvier 2026 | ✅ Mesuré |
| 2 | Qwen/Qwen3-VL-Embedding-2B | Qwen | 58,1 % | 8 janvier 2026 | ✅ Mesuré |
| 3 | LCO-Embedding/LCO-Embedding-Omni-7B | LCO-Embedding | 56,8 % | 15 octobre 2025 | ✅ Mesuré |
| 4 | LCO-Embedding/LCO-Embedding-Omni-3B | LCO-Embedding | 54,8 % | 23 octobre 2025 | ✅ Mesuré |
| 5 | Haon-Chen/e5-omni-7B | Haon-Chen | 54,1 % | 6 janvier 2026 | ✅ Mesuré |
| 6 | encord-team/ebind-points-vision | encord-team | 53,8 % | 19 novembre 2025 | ✅ Mesuré |
| 7 | encord-team/ebind-audio-vision | encord-team | 53,8 % | 19 novembre 2025 | ✅ Mesuré |
| 8 | encord-team/ebind-full | encord-team | 53,8 % | 19 novembre 2025 | ✅ Mesuré |
| 9 | zhibinlan/UME-R1-7B | zhibinlan | 53,3 % | 10 novembre 2025 | ✅ Mesuré |
| 10 | facebook/pe-av-large | 52,4 % | 22 décembre 2025 | ✅ Mesuré | |
| 11 | zhibinlan/UME-R1-2B | zhibinlan | 51,5 % | 10 novembre 2025 | ✅ Mesuré |
| 12 | Tevatron/OmniEmbed-v0.1 | Tevatron | 51,3 % | 12 avril 2025 | ✅ Mesuré |
| 13 | facebook/pe-av-small | 50,2 % | 22 décembre 2025 | ✅ Mesuré | |
| 14 | facebook/pe-av-base | 49,7 % | 22 décembre 2025 | ✅ Mesuré | |
| 15 | Haon-Chen/e5-omni-3B | Haon-Chen | 48,4 % | 6 janvier 2026 | ✅ Mesuré |
| 16 | VLM2Vec/VLM2Vec-V2.0 | VLM2Vec | 44,9 % | 30 avril 2025 | ✅ Mesuré |
| 17 | microsoft/xclip-large-patch14 | Microsoft | 42,9 % | 4 août 2022 | ✅ Mesuré |
| 18 | microsoft/xclip-base-patch16 | Microsoft | 38,4 % | 4 août 2022 | ✅ Mesuré |
| 19 | microsoft/xclip-base-patch32 | Microsoft | 35,9 % | 4 août 2022 | ✅ Mesuré |
| 20 | nvidia/omni-embed-nemotron-3b | NVIDIA | 35,8 % | 1 octobre 2025 | ✅ Mesuré |
Classement établi sur 24 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 50,8 %.
Notre analyse
Un score élevé sur MTEB: MVEB Video-Text indique qu’un modèle aligne efficacement informations visuelles et requêtes textuelles dans plusieurs cadres d’évaluation, de la récupération à la QA vidéo. Le meilleur score recensé dans la base, obtenu par Qwen/Qwen3-VL-Embedding-8B, se situe au-dessus d’une médiane de 51 %, ce qui suggère un écart mesurable entre les modèles les plus performants et le centre du classement. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, avec une fiabilité potentiellement moins homogène qu’une évaluation entièrement reproduite par un tiers. Les limites tiennent aussi à la portée du benchmark, principalement anglophone et centré sur le sous-ensemble texte-vidéo de MVEB, ainsi qu’aux risques généraux des benchmarks publics, comme la saturation progressive ou la contamination des données. Le classement met surtout en évidence la maturité relative des embeddings texte-vidéo sans audio, plutôt qu’une mesure complète de compréhension multimodale universelle.
Sources des scores : mteb.