Vision & multimodal

MMStar

MMStar est un benchmark multimodal public conçu par Lin Chen et al. pour évaluer des modèles capables de traiter conjointement une image et une question. Il se concentre sur des tâches où l’information visuelle est indispensable, afin de limiter les réponses obtenues par simple…

Le benchmark repose sur des QCM en anglais associés à des images, sélectionnés manuellement pour couvrir des capacités de perception visuelle, de raisonnement multimodal, de compréhension fine et de résolution de tâches visuelles variées. Il sert ainsi de test ciblé pour distinguer les modèles réellement robustes en vision-langage.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Lin Chen et al.
Capacités mesurées	généraliste, multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	QCM multimodaux avec image
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	1 500 questions
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	83,3 %	31 mars 2026	Auto-déclaré
2	Qwen3.5-122B-A10B	Qwen	82,9 %	24 février 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	81,9 %	24 février 2026	Auto-déclaré
4	Qwen3.6-27B	Qwen	81,4 %	21 avril 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	81,0 %	24 février 2026	Auto-déclaré
6	Qwen3 VL 32B Thinking	Qwen	79,4 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 235B A22B Thinking	Qwen	78,7 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 235B A22B Instruct	Qwen	78,4 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 32B Instruct	Qwen	77,7 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 30B A3B Thinking	Qwen	75,5 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 8B Thinking	Qwen	75,3 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 4B Thinking	Qwen	73,2 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Instruct	Qwen	72,1 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 8B Instruct	Qwen	70,9 %	22 septembre 2025	Auto-déclaré
15	Qwen2.5 VL 72B Instruct	Qwen	70,8 %	26 janvier 2025	Auto-déclaré
16	Qwen3 VL 4B Instruct	Qwen	69,8 %	22 septembre 2025	Auto-déclaré
17	Qwen2.5 VL 32B Instruct	Qwen	69,5 %	28 février 2025	Auto-déclaré
18	Qwen2.5-Omni-7B	Qwen	64,0 %	27 mars 2025	Auto-déclaré
19	Qwen2.5 VL 7B Instruct	Qwen	63,9 %	26 janvier 2025	Auto-déclaré
20	DeepSeek VL2	DeepSeek	61,3 %	13 décembre 2024	Auto-déclaré

Classement établi sur 22 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 74,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMStar indique qu’un modèle parvient à exploiter efficacement le contenu de l’image pour répondre à des questions multimodales difficiles. L’accuracy mesure directement la proportion de bonnes réponses, ce qui rend les résultats lisibles, mais ne renseigne pas sur les causes d’erreur ni sur la robustesse hors des exemples proposés. La construction du benchmark vise explicitement à réduire deux biais connus des évaluations multimodales, l’inutilité du contenu visuel et les fuites de données non intentionnelles. La fiabilité du classement doit toutefois être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le score médian de 74 % et le meilleur résultat, 83 % pour Qwen3.6 Plus, suggèrent un benchmark discriminant mais déjà abordable pour les meilleurs systèmes évalués. Les limites tiennent aussi à la portée du jeu, centré sur l’anglais et sur 1 500 questions, ainsi qu’au risque de saturation si les modèles progressent vers des performances proches du plafond.

Sources des scores : llm-stats.

MMStar

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23