MMT-Bench

MMT-Bench est un benchmark multimodal conçu par OpenGVLab (Shanghai AI Laboratory) et al. pour évaluer des modèles vision-langage dans une perspective multitâche. Il s’appuie sur des QCM visuels à choix unique en anglais, couvrant des scénarios variés de compréhension multimodale.

MMT-Bench est un benchmark multimodal conçu par OpenGVLab (Shanghai AI Laboratory) et al. pour évaluer des modèles vision-langage dans une perspective multitâche. Il s’appuie sur des QCM visuels à choix unique en anglais, couvrant des scénarios variés de compréhension multimodale.

Le benchmark mesure la capacité à interpréter des informations visuelles et à raisonner à partir d’elles, notamment dans des contextes comme la conduite de véhicules ou la navigation incarnée. Il sert ainsi de point de comparaison pour apprécier la polyvalence des modèles vision-langage sur un large spectre de tâches et de sous-tâches.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenGVLab (Shanghai AI Laboratory) et al.
Capacités mesuréesgénéraliste, multimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM multimodaux à choix unique
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu31 325 questions visuelles à choix multiple
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek VL2DeepSeek63,6 %13 décembre 2024Auto-déclaré
2Qwen2.5 VL 7B InstructQwen63,6 %26 janvier 2025Auto-déclaré
3DeepSeek VL2 SmallDeepSeek62,9 %13 décembre 2024Auto-déclaré
4DeepSeek VL2 TinyDeepSeek53,2 %13 décembre 2024Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 63,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMT-Bench indique une meilleure aptitude à répondre correctement à des questions visuelles à choix multiple, donc une compréhension multimodale plus robuste et un raisonnement visuel plus fiable dans les scénarios couverts. La métrique utilisée, l’accuracy, rend la comparaison directe entre modèles, mais ne renseigne pas sur la nature exacte des erreurs ni sur la qualité des raisonnements intermédiaires.

Dans la base considérée, le classement reste resserré, avec un score médian de 63 % et DeepSeek VL2 en tête à 64 %. Cet écart limité suggère une hiérarchie peu tranchée entre les modèles évalués. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la robustesse comparative par rapport à une évaluation entièrement indépendante. Les limites habituelles des benchmarks s’appliquent aussi : risque de contamination des données, portée limitée aux tâches et scénarios inclus, et possible saturation si les modèles convergent vers des performances proches sur ce format de QCM.


Sources des scores : llm-stats.