MuirBench

MuirBench est un benchmark public consacré à la compréhension robuste de plusieurs images par les modèles multimodaux. Publié en 2024 par un consortium académique associé aux auteurs de MuirBench, dont Pan Lu, il cible des situations où l’information utile dépend de relations entre…

MuirBench est un benchmark public consacré à la compréhension robuste de plusieurs images par les modèles multimodaux. Publié en 2024 par un consortium académique associé aux auteurs de MuirBench, dont Pan Lu, il cible des situations où l’information utile dépend de relations entre images plutôt que d’une seule scène isolée.

Le benchmark évalue notamment la compréhension multivue, les relations temporelles, l’ordonnancement et la lecture de scènes. Son intérêt est de tester la capacité des modèles à relier, comparer et interpréter plusieurs images de manière cohérente, avec des questions à choix multiples et des variantes non répondables appariées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkConsortium academique (auteurs MuirBench, dont Pan Lu / lupantech)
Capacités mesuréesComprehension robuste multi-images (multivue, relations temporelles, ordonnancement, comprehension de scene)
ModalitéMultimodal
Type de questionsQCM (choix multiples), avec variantes non-repondables appariees
Métrique d'évaluationPrécision (accuracy)
AccèsPublic
Languesanglais
Taille du jeu11 264 images, 2 600 questions a choix multiples, 12 taches, 10 categories de relations multi-images
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 32B ThinkingQwen80,3 %22 septembre 2025Auto-déclaré
2Qwen3 VL 235B A22B ThinkingQwen80,1 %22 septembre 2025Auto-déclaré
3Qwen3 VL 30B A3B ThinkingQwen77,6 %22 septembre 2025Auto-déclaré
4Qwen3 VL 8B ThinkingQwen76,8 %22 septembre 2025Auto-déclaré
5Qwen3 VL 4B ThinkingQwen75,0 %22 septembre 2025Auto-déclaré
6Qwen3 VL 235B A22B InstructQwen72,8 %22 septembre 2025Auto-déclaré
7Qwen3 VL 32B InstructQwen72,8 %22 septembre 2025Auto-déclaré
8Qwen3 VL 8B InstructQwen64,4 %22 septembre 2025Auto-déclaré
9Qwen3 VL 4B InstructQwen63,8 %22 septembre 2025Auto-déclaré
10Qwen3 VL 30B A3B InstructQwen62,9 %22 septembre 2025Auto-déclaré
11Qwen2.5-Omni-7BQwen59,2 %27 mars 2025Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 72,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MuirBench indique une bonne capacité à exploiter des indices répartis sur plusieurs images, à distinguer des relations temporelles ou complémentaires, et à éviter certaines réponses abusives lorsque la variante non répondable ne permet pas de conclure. La métrique de précision rend le classement lisible, mais elle ne capture pas toute la qualité du raisonnement multimodal, notamment la robustesse hors distribution ou l’explication des choix. La fiabilité doit aussi être interprétée avec prudence, car les scores de la base sont majoritairement auto-déclarés par les éditeurs plutôt que systématiquement mesurés dans un protocole indépendant. Le classement suggère un niveau déjà élevé des meilleurs systèmes, avec Qwen3 VL 32B Thinking en tête à 80%, au-dessus d’une médiane de 73% sur les modèles référencés. Cet écart montre une hiérarchie réelle, mais pas une domination écrasante. Les limites habituelles demeurent: risque de saturation progressive, possible contamination des données publiques, portée centrée sur des QCM en anglais et sur les relations multi-images définies par le benchmark.


Sources des scores : llm-stats.