MMT-Bench
MMT-Bench est un benchmark multimodal conçu par OpenGVLab (Shanghai AI Laboratory) et al. pour évaluer des modèles vision-langage dans une perspective multitâche. Il s’appuie sur des QCM visuels à choix unique en anglais, couvrant des scénarios variés de compréhension multimodale.
MMT-Bench est un benchmark multimodal conçu par OpenGVLab (Shanghai AI Laboratory) et al. pour évaluer des modèles vision-langage dans une perspective multitâche. Il s’appuie sur des QCM visuels à choix unique en anglais, couvrant des scénarios variés de compréhension multimodale.
Le benchmark mesure la capacité à interpréter des informations visuelles et à raisonner à partir d’elles, notamment dans des contextes comme la conduite de véhicules ou la navigation incarnée. Il sert ainsi de point de comparaison pour apprécier la polyvalence des modèles vision-langage sur un large spectre de tâches et de sous-tâches.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenGVLab (Shanghai AI Laboratory) et al. |
| Capacités mesurées | généraliste, multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM multimodaux à choix unique |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 31 325 questions visuelles à choix multiple |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek VL2 | DeepSeek | 63,6 % | 13 décembre 2024 | Auto-déclaré |
| 2 | Qwen2.5 VL 7B Instruct | Qwen | 63,6 % | 26 janvier 2025 | Auto-déclaré |
| 3 | DeepSeek VL2 Small | DeepSeek | 62,9 % | 13 décembre 2024 | Auto-déclaré |
| 4 | DeepSeek VL2 Tiny | DeepSeek | 53,2 % | 13 décembre 2024 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 63,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMT-Bench indique une meilleure aptitude à répondre correctement à des questions visuelles à choix multiple, donc une compréhension multimodale plus robuste et un raisonnement visuel plus fiable dans les scénarios couverts. La métrique utilisée, l’accuracy, rend la comparaison directe entre modèles, mais ne renseigne pas sur la nature exacte des erreurs ni sur la qualité des raisonnements intermédiaires.
Dans la base considérée, le classement reste resserré, avec un score médian de 63 % et DeepSeek VL2 en tête à 64 %. Cet écart limité suggère une hiérarchie peu tranchée entre les modèles évalués. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la robustesse comparative par rapport à une évaluation entièrement indépendante. Les limites habituelles des benchmarks s’appliquent aussi : risque de contamination des données, portée limitée aux tâches et scénarios inclus, et possible saturation si les modèles convergent vers des performances proches sur ce format de QCM.
Sources des scores : llm-stats.