MMStar
MMStar est un benchmark multimodal public conçu par Lin Chen et al. pour évaluer des modèles capables de traiter conjointement une image et une question. Il se concentre sur des tâches où l’information visuelle est indispensable, afin de limiter les réponses obtenues par simple…
MMStar est un benchmark multimodal public conçu par Lin Chen et al. pour évaluer des modèles capables de traiter conjointement une image et une question. Il se concentre sur des tâches où l’information visuelle est indispensable, afin de limiter les réponses obtenues par simple raisonnement textuel ou par indices superficiels.
Le benchmark repose sur des QCM en anglais associés à des images, sélectionnés manuellement pour couvrir des capacités de perception visuelle, de raisonnement multimodal, de compréhension fine et de résolution de tâches visuelles variées. Il sert ainsi de test ciblé pour distinguer les modèles réellement robustes en vision-langage.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Lin Chen et al. |
| Capacités mesurées | généraliste, multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | QCM multimodaux avec image |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1 500 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 83,3 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3.5-122B-A10B | Qwen | 82,9 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 81,9 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.6-27B | Qwen | 81,4 % | 21 avril 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 81,0 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3 VL 32B Thinking | Qwen | 79,4 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 235B A22B Thinking | Qwen | 78,7 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 235B A22B Instruct | Qwen | 78,4 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 32B Instruct | Qwen | 77,7 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 30B A3B Thinking | Qwen | 75,5 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 8B Thinking | Qwen | 75,3 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 4B Thinking | Qwen | 73,2 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Instruct | Qwen | 72,1 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 8B Instruct | Qwen | 70,9 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen2.5 VL 72B Instruct | Qwen | 70,8 % | 26 janvier 2025 | Auto-déclaré |
| 16 | Qwen3 VL 4B Instruct | Qwen | 69,8 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen2.5 VL 32B Instruct | Qwen | 69,5 % | 28 février 2025 | Auto-déclaré |
| 18 | Qwen2.5-Omni-7B | Qwen | 64,0 % | 27 mars 2025 | Auto-déclaré |
| 19 | Qwen2.5 VL 7B Instruct | Qwen | 63,9 % | 26 janvier 2025 | Auto-déclaré |
| 20 | DeepSeek VL2 | DeepSeek | 61,3 % | 13 décembre 2024 | Auto-déclaré |
Classement établi sur 22 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 74,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMStar indique qu’un modèle parvient à exploiter efficacement le contenu de l’image pour répondre à des questions multimodales difficiles. L’accuracy mesure directement la proportion de bonnes réponses, ce qui rend les résultats lisibles, mais ne renseigne pas sur les causes d’erreur ni sur la robustesse hors des exemples proposés. La construction du benchmark vise explicitement à réduire deux biais connus des évaluations multimodales, l’inutilité du contenu visuel et les fuites de données non intentionnelles. La fiabilité du classement doit toutefois être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le score médian de 74 % et le meilleur résultat, 83 % pour Qwen3.6 Plus, suggèrent un benchmark discriminant mais déjà abordable pour les meilleurs systèmes évalués. Les limites tiennent aussi à la portée du jeu, centré sur l’anglais et sur 1 500 questions, ainsi qu’au risque de saturation si les modèles progressent vers des performances proches du plafond.
Sources des scores : llm-stats.