Vision & multimodal

MM-MT-Bench

MM-MT-Bench est un benchmark d’évaluation multimodale publié par Mistral AI en 2024. Il sert à tester des modèles vision-langage alignés par instructions dans des dialogues multi-tours combinant texte et images, avec des questions ouvertes traitées en zero-shot.

Son rôle est d’apprécier la capacité d’un modèle à suivre des consignes au fil d’un échange, à maintenir une communication cohérente et à répondre correctement dans des situations multimodales. L’évaluation repose sur un juge LLM attribuant un score sur une échelle de 1 à 10.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Mistral AI
Capacités mesurées	multimodal, vision-langage, suivi d'instructions multi-tours, communication, réponse à questions ouvertes en zero-shot
Modalité	Multimodal
Type de questions	dialogues multimodaux (texte + images) multi-tours, questions ouvertes, jugé par LLM
Métrique d'évaluation	score LLM-as-judge (échelle 1-10)
Accès	Public
Langues	anglais
Année de publication	2024
Ressources	Article scientifique

Classement des modèles (top 17)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Mistral Large 3	Mistral AI	84,9 %	1 septembre 2025	Auto-déclaré
2	Qwen3 VL 32B Thinking	Qwen	83,0 %	22 septembre 2025	Auto-déclaré
3	Pixtral Large	Mistral AI	74,0 %	18 novembre 2024	Auto-déclaré
4	Pixtral-12B	Mistral AI	60,5 %	17 septembre 2024	Auto-déclaré
5	Qwen3 VL 235B A22B Instruct	Qwen	8,5 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 235B A22B Thinking	Qwen	8,5 %	22 septembre 2025	Auto-déclaré
7	MiniStral 3 (14B Instruct 2512)	Mistral AI	8,5 %	4 décembre 2025	Auto-déclaré
8	Qwen3 VL 32B Instruct	Qwen	8,4 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 30B A3B Instruct	Qwen	8,1 %	22 septembre 2025	Auto-déclaré
10	Ministral 3 (8B Instruct 2512)	Mistral AI	8,1 %	4 décembre 2025	Auto-déclaré
11	Qwen3 VL 8B Thinking	Qwen	8,0 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 30B A3B Thinking	Qwen	7,9 %	22 septembre 2025	Auto-déclaré
13	Ministral 3 (3B Instruct 2512)	Mistral AI	7,8 %	4 décembre 2025	Auto-déclaré
14	Qwen3 VL 4B Thinking	Qwen	7,7 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 8B Instruct	Qwen	7,7 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 4B Instruct	Qwen	7,5 %	22 septembre 2025	Auto-déclaré
17	Qwen2.5-Omni-7B	Qwen	6,0 %	27 mars 2025	Auto-déclaré

Classement établi sur 17 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 8,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MM-MT-Bench indique une bonne aptitude à interpréter des entrées texte et image dans un dialogue prolongé, à conserver le fil des instructions et à formuler des réponses ouvertes jugées pertinentes. Dans la base, le classement couvre 17 modèles, avec un meilleur résultat observé pour Mistral Large 3 à 85 %, tandis que le score médian de l’ensemble est de 8 %, ce qui suggère un écart marqué entre les modèles les plus performants et le reste du panel.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le recours à un LLM-as-judge apporte une évaluation scalable des réponses ouvertes, mais dépend du comportement du juge et de ses critères implicites. Les limites habituelles incluent le risque de saturation pour les meilleurs modèles, une contamination éventuelle des données d’évaluation et une portée centrée sur l’anglais, le multimodal et les dialogues multi-tours plutôt que sur l’ensemble des usages d’un modèle.

Sources des scores : llm-stats.

MM-MT-Bench

Carte d'identité

Classement des modèles (top 17)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench