MM-MT-Bench
MM-MT-Bench est un benchmark d’évaluation multimodale publié par Mistral AI en 2024. Il sert à tester des modèles vision-langage alignés par instructions dans des dialogues multi-tours combinant texte et images, avec des questions ouvertes traitées en zero-shot.
MM-MT-Bench est un benchmark d’évaluation multimodale publié par Mistral AI en 2024. Il sert à tester des modèles vision-langage alignés par instructions dans des dialogues multi-tours combinant texte et images, avec des questions ouvertes traitées en zero-shot.
Son rôle est d’apprécier la capacité d’un modèle à suivre des consignes au fil d’un échange, à maintenir une communication cohérente et à répondre correctement dans des situations multimodales. L’évaluation repose sur un juge LLM attribuant un score sur une échelle de 1 à 10.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Mistral AI |
| Capacités mesurées | multimodal, vision-langage, suivi d'instructions multi-tours, communication, réponse à questions ouvertes en zero-shot |
| Modalité | Multimodal |
| Type de questions | dialogues multimodaux (texte + images) multi-tours, questions ouvertes, jugé par LLM |
| Métrique d'évaluation | score LLM-as-judge (échelle 1-10) |
| Accès | Public |
| Langues | anglais |
| Année de publication | 2024 |
| Ressources | Article scientifique |
Classement des modèles (top 17)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Mistral Large 3 | Mistral AI | 84,9 % | 1 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 32B Thinking | Qwen | 83,0 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Pixtral Large | Mistral AI | 74,0 % | 18 novembre 2024 | Auto-déclaré |
| 4 | Pixtral-12B | Mistral AI | 60,5 % | 17 septembre 2024 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Instruct | Qwen | 8,5 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 235B A22B Thinking | Qwen | 8,5 % | 22 septembre 2025 | Auto-déclaré |
| 7 | MiniStral 3 (14B Instruct 2512) | Mistral AI | 8,5 % | 4 décembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 32B Instruct | Qwen | 8,4 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 30B A3B Instruct | Qwen | 8,1 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Ministral 3 (8B Instruct 2512) | Mistral AI | 8,1 % | 4 décembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 8B Thinking | Qwen | 8,0 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 30B A3B Thinking | Qwen | 7,9 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Ministral 3 (3B Instruct 2512) | Mistral AI | 7,8 % | 4 décembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 4B Thinking | Qwen | 7,7 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 8B Instruct | Qwen | 7,7 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 4B Instruct | Qwen | 7,5 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen2.5-Omni-7B | Qwen | 6,0 % | 27 mars 2025 | Auto-déclaré |
Classement établi sur 17 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 8,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MM-MT-Bench indique une bonne aptitude à interpréter des entrées texte et image dans un dialogue prolongé, à conserver le fil des instructions et à formuler des réponses ouvertes jugées pertinentes. Dans la base, le classement couvre 17 modèles, avec un meilleur résultat observé pour Mistral Large 3 à 85 %, tandis que le score médian de l’ensemble est de 8 %, ce qui suggère un écart marqué entre les modèles les plus performants et le reste du panel.
La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le recours à un LLM-as-judge apporte une évaluation scalable des réponses ouvertes, mais dépend du comportement du juge et de ses critères implicites. Les limites habituelles incluent le risque de saturation pour les meilleurs modèles, une contamination éventuelle des données d’évaluation et une portée centrée sur l’anglais, le multimodal et les dialogues multi-tours plutôt que sur l’ensemble des usages d’un modèle.
Sources des scores : llm-stats.