MuirBench
MuirBench est un benchmark public consacré à la compréhension robuste de plusieurs images par les modèles multimodaux. Publié en 2024 par un consortium académique associé aux auteurs de MuirBench, dont Pan Lu, il cible des situations où l’information utile dépend de relations entre…
MuirBench est un benchmark public consacré à la compréhension robuste de plusieurs images par les modèles multimodaux. Publié en 2024 par un consortium académique associé aux auteurs de MuirBench, dont Pan Lu, il cible des situations où l’information utile dépend de relations entre images plutôt que d’une seule scène isolée.
Le benchmark évalue notamment la compréhension multivue, les relations temporelles, l’ordonnancement et la lecture de scènes. Son intérêt est de tester la capacité des modèles à relier, comparer et interpréter plusieurs images de manière cohérente, avec des questions à choix multiples et des variantes non répondables appariées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Consortium academique (auteurs MuirBench, dont Pan Lu / lupantech) |
| Capacités mesurées | Comprehension robuste multi-images (multivue, relations temporelles, ordonnancement, comprehension de scene) |
| Modalité | Multimodal |
| Type de questions | QCM (choix multiples), avec variantes non-repondables appariees |
| Métrique d'évaluation | Précision (accuracy) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 11 264 images, 2 600 questions a choix multiples, 12 taches, 10 categories de relations multi-images |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 32B Thinking | Qwen | 80,3 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 235B A22B Thinking | Qwen | 80,1 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 30B A3B Thinking | Qwen | 77,6 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 8B Thinking | Qwen | 76,8 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 4B Thinking | Qwen | 75,0 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 235B A22B Instruct | Qwen | 72,8 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 32B Instruct | Qwen | 72,8 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 8B Instruct | Qwen | 64,4 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 4B Instruct | Qwen | 63,8 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 30B A3B Instruct | Qwen | 62,9 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen2.5-Omni-7B | Qwen | 59,2 % | 27 mars 2025 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 72,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MuirBench indique une bonne capacité à exploiter des indices répartis sur plusieurs images, à distinguer des relations temporelles ou complémentaires, et à éviter certaines réponses abusives lorsque la variante non répondable ne permet pas de conclure. La métrique de précision rend le classement lisible, mais elle ne capture pas toute la qualité du raisonnement multimodal, notamment la robustesse hors distribution ou l’explication des choix. La fiabilité doit aussi être interprétée avec prudence, car les scores de la base sont majoritairement auto-déclarés par les éditeurs plutôt que systématiquement mesurés dans un protocole indépendant. Le classement suggère un niveau déjà élevé des meilleurs systèmes, avec Qwen3 VL 32B Thinking en tête à 80%, au-dessus d’une médiane de 73% sur les modèles référencés. Cet écart montre une hiérarchie réelle, mais pas une domination écrasante. Les limites habituelles demeurent: risque de saturation progressive, possible contamination des données publiques, portée centrée sur des QCM en anglais et sur les relations multi-images définies par le benchmark.
Sources des scores : llm-stats.