MM-MT-Bench

MM-MT-Bench est un benchmark d’évaluation multimodale publié par Mistral AI en 2024. Il sert à tester des modèles vision-langage alignés par instructions dans des dialogues multi-tours combinant texte et images, avec des questions ouvertes traitées en zero-shot.

MM-MT-Bench est un benchmark d’évaluation multimodale publié par Mistral AI en 2024. Il sert à tester des modèles vision-langage alignés par instructions dans des dialogues multi-tours combinant texte et images, avec des questions ouvertes traitées en zero-shot.

Son rôle est d’apprécier la capacité d’un modèle à suivre des consignes au fil d’un échange, à maintenir une communication cohérente et à répondre correctement dans des situations multimodales. L’évaluation repose sur un juge LLM attribuant un score sur une échelle de 1 à 10.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMistral AI
Capacités mesuréesmultimodal, vision-langage, suivi d'instructions multi-tours, communication, réponse à questions ouvertes en zero-shot
ModalitéMultimodal
Type de questionsdialogues multimodaux (texte + images) multi-tours, questions ouvertes, jugé par LLM
Métrique d'évaluationscore LLM-as-judge (échelle 1-10)
AccèsPublic
Languesanglais
Année de publication2024
RessourcesArticle scientifique

Classement des modèles (top 17)

#ModèleÉditeurScoreSortieFiabilité
1Mistral Large 3Mistral AI84,9 %1 septembre 2025Auto-déclaré
2Qwen3 VL 32B ThinkingQwen83,0 %22 septembre 2025Auto-déclaré
3Pixtral LargeMistral AI74,0 %18 novembre 2024Auto-déclaré
4Pixtral-12BMistral AI60,5 %17 septembre 2024Auto-déclaré
5Qwen3 VL 235B A22B InstructQwen8,5 %22 septembre 2025Auto-déclaré
6Qwen3 VL 235B A22B ThinkingQwen8,5 %22 septembre 2025Auto-déclaré
7MiniStral 3 (14B Instruct 2512)Mistral AI8,5 %4 décembre 2025Auto-déclaré
8Qwen3 VL 32B InstructQwen8,4 %22 septembre 2025Auto-déclaré
9Qwen3 VL 30B A3B InstructQwen8,1 %22 septembre 2025Auto-déclaré
10Ministral 3 (8B Instruct 2512)Mistral AI8,1 %4 décembre 2025Auto-déclaré
11Qwen3 VL 8B ThinkingQwen8,0 %22 septembre 2025Auto-déclaré
12Qwen3 VL 30B A3B ThinkingQwen7,9 %22 septembre 2025Auto-déclaré
13Ministral 3 (3B Instruct 2512)Mistral AI7,8 %4 décembre 2025Auto-déclaré
14Qwen3 VL 4B ThinkingQwen7,7 %22 septembre 2025Auto-déclaré
15Qwen3 VL 8B InstructQwen7,7 %22 septembre 2025Auto-déclaré
16Qwen3 VL 4B InstructQwen7,5 %22 septembre 2025Auto-déclaré
17Qwen2.5-Omni-7BQwen6,0 %27 mars 2025Auto-déclaré

Classement établi sur 17 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 8,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MM-MT-Bench indique une bonne aptitude à interpréter des entrées texte et image dans un dialogue prolongé, à conserver le fil des instructions et à formuler des réponses ouvertes jugées pertinentes. Dans la base, le classement couvre 17 modèles, avec un meilleur résultat observé pour Mistral Large 3 à 85 %, tandis que le score médian de l’ensemble est de 8 %, ce qui suggère un écart marqué entre les modèles les plus performants et le reste du panel.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le recours à un LLM-as-judge apporte une évaluation scalable des réponses ouvertes, mais dépend du comportement du juge et de ses critères implicites. Les limites habituelles incluent le risque de saturation pour les meilleurs modèles, une contamination éventuelle des données d’évaluation et une portée centrée sur l’anglais, le multimodal et les dialogues multi-tours plutôt que sur l’ensemble des usages d’un modèle.


Sources des scores : llm-stats.