Vision & multimodal

MMT-Bench

MMT-Bench est un benchmark multimodal conçu par OpenGVLab (Shanghai AI Laboratory) et al. pour évaluer des modèles vision-langage dans une perspective multitâche. Il s’appuie sur des QCM visuels à choix unique en anglais, couvrant des scénarios variés de compréhension multimodale.

Le benchmark mesure la capacité à interpréter des informations visuelles et à raisonner à partir d’elles, notamment dans des contextes comme la conduite de véhicules ou la navigation incarnée. Il sert ainsi de point de comparaison pour apprécier la polyvalence des modèles vision-langage sur un large spectre de tâches et de sous-tâches.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenGVLab (Shanghai AI Laboratory) et al.
Capacités mesurées	généraliste, multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM multimodaux à choix unique
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	31 325 questions visuelles à choix multiple
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek VL2	DeepSeek	63,6 %	13 décembre 2024	Auto-déclaré
2	Qwen2.5 VL 7B Instruct	Qwen	63,6 %	26 janvier 2025	Auto-déclaré
3	DeepSeek VL2 Small	DeepSeek	62,9 %	13 décembre 2024	Auto-déclaré
4	DeepSeek VL2 Tiny	DeepSeek	53,2 %	13 décembre 2024	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 63,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMT-Bench indique une meilleure aptitude à répondre correctement à des questions visuelles à choix multiple, donc une compréhension multimodale plus robuste et un raisonnement visuel plus fiable dans les scénarios couverts. La métrique utilisée, l’accuracy, rend la comparaison directe entre modèles, mais ne renseigne pas sur la nature exacte des erreurs ni sur la qualité des raisonnements intermédiaires.

Dans la base considérée, le classement reste resserré, avec un score médian de 63 % et DeepSeek VL2 en tête à 64 %. Cet écart limité suggère une hiérarchie peu tranchée entre les modèles évalués. L’interprétation doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la robustesse comparative par rapport à une évaluation entièrement indépendante. Les limites habituelles des benchmarks s’appliquent aussi : risque de contamination des données, portée limitée aux tâches et scénarios inclus, et possible saturation si les modèles convergent vers des performances proches sur ce format de QCM.

Sources des scores : llm-stats.

MMT-Bench

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench