MMStar

MMStar est un benchmark multimodal public conçu par Lin Chen et al. pour évaluer des modèles capables de traiter conjointement une image et une question. Il se concentre sur des tâches où l’information visuelle est indispensable, afin de limiter les réponses obtenues par simple…

MMStar est un benchmark multimodal public conçu par Lin Chen et al. pour évaluer des modèles capables de traiter conjointement une image et une question. Il se concentre sur des tâches où l’information visuelle est indispensable, afin de limiter les réponses obtenues par simple raisonnement textuel ou par indices superficiels.

Le benchmark repose sur des QCM en anglais associés à des images, sélectionnés manuellement pour couvrir des capacités de perception visuelle, de raisonnement multimodal, de compréhension fine et de résolution de tâches visuelles variées. Il sert ainsi de test ciblé pour distinguer les modèles réellement robustes en vision-langage.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLin Chen et al.
Capacités mesuréesgénéraliste, multimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsQCM multimodaux avec image
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu1 500 questions
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6 PlusQwen83,3 %31 mars 2026Auto-déclaré
2Qwen3.5-122B-A10BQwen82,9 %24 février 2026Auto-déclaré
3Qwen3.5-35B-A3BQwen81,9 %24 février 2026Auto-déclaré
4Qwen3.6-27BQwen81,4 %21 avril 2026Auto-déclaré
5Qwen3.5-27BQwen81,0 %24 février 2026Auto-déclaré
6Qwen3 VL 32B ThinkingQwen79,4 %22 septembre 2025Auto-déclaré
7Qwen3 VL 235B A22B ThinkingQwen78,7 %22 septembre 2025Auto-déclaré
8Qwen3 VL 235B A22B InstructQwen78,4 %22 septembre 2025Auto-déclaré
9Qwen3 VL 32B InstructQwen77,7 %22 septembre 2025Auto-déclaré
10Qwen3 VL 30B A3B ThinkingQwen75,5 %22 septembre 2025Auto-déclaré
11Qwen3 VL 8B ThinkingQwen75,3 %22 septembre 2025Auto-déclaré
12Qwen3 VL 4B ThinkingQwen73,2 %22 septembre 2025Auto-déclaré
13Qwen3 VL 30B A3B InstructQwen72,1 %22 septembre 2025Auto-déclaré
14Qwen3 VL 8B InstructQwen70,9 %22 septembre 2025Auto-déclaré
15Qwen2.5 VL 72B InstructQwen70,8 %26 janvier 2025Auto-déclaré
16Qwen3 VL 4B InstructQwen69,8 %22 septembre 2025Auto-déclaré
17Qwen2.5 VL 32B InstructQwen69,5 %28 février 2025Auto-déclaré
18Qwen2.5-Omni-7BQwen64,0 %27 mars 2025Auto-déclaré
19Qwen2.5 VL 7B InstructQwen63,9 %26 janvier 2025Auto-déclaré
20DeepSeek VL2DeepSeek61,3 %13 décembre 2024Auto-déclaré

Classement établi sur 22 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 74,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMStar indique qu’un modèle parvient à exploiter efficacement le contenu de l’image pour répondre à des questions multimodales difficiles. L’accuracy mesure directement la proportion de bonnes réponses, ce qui rend les résultats lisibles, mais ne renseigne pas sur les causes d’erreur ni sur la robustesse hors des exemples proposés. La construction du benchmark vise explicitement à réduire deux biais connus des évaluations multimodales, l’inutilité du contenu visuel et les fuites de données non intentionnelles. La fiabilité du classement doit toutefois être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le score médian de 74 % et le meilleur résultat, 83 % pour Qwen3.6 Plus, suggèrent un benchmark discriminant mais déjà abordable pour les meilleurs systèmes évalués. Les limites tiennent aussi à la portée du jeu, centré sur l’anglais et sur 1 500 questions, ainsi qu’au risque de saturation si les modèles progressent vers des performances proches du plafond.


Sources des scores : llm-stats.