Vision & multimodal

MuirBench

MuirBench est un benchmark public consacré à la compréhension robuste de plusieurs images par les modèles multimodaux. Publié en 2024 par un consortium académique associé aux auteurs de MuirBench, dont Pan Lu, il cible des situations où l’information utile dépend de relations entre…

Le benchmark évalue notamment la compréhension multivue, les relations temporelles, l’ordonnancement et la lecture de scènes. Son intérêt est de tester la capacité des modèles à relier, comparer et interpréter plusieurs images de manière cohérente, avec des questions à choix multiples et des variantes non répondables appariées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Consortium academique (auteurs MuirBench, dont Pan Lu / lupantech)
Capacités mesurées	Comprehension robuste multi-images (multivue, relations temporelles, ordonnancement, comprehension de scene)
Modalité	Multimodal
Type de questions	QCM (choix multiples), avec variantes non-repondables appariees
Métrique d'évaluation	Précision (accuracy)
Accès	Public
Langues	anglais
Taille du jeu	11 264 images, 2 600 questions a choix multiples, 12 taches, 10 categories de relations multi-images
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 32B Thinking	Qwen	80,3 %	22 septembre 2025	Auto-déclaré
2	Qwen3 VL 235B A22B Thinking	Qwen	80,1 %	22 septembre 2025	Auto-déclaré
3	Qwen3 VL 30B A3B Thinking	Qwen	77,6 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 8B Thinking	Qwen	76,8 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 4B Thinking	Qwen	75,0 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 235B A22B Instruct	Qwen	72,8 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 32B Instruct	Qwen	72,8 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 8B Instruct	Qwen	64,4 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 4B Instruct	Qwen	63,8 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 30B A3B Instruct	Qwen	62,9 %	22 septembre 2025	Auto-déclaré
11	Qwen2.5-Omni-7B	Qwen	59,2 %	27 mars 2025	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 72,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MuirBench indique une bonne capacité à exploiter des indices répartis sur plusieurs images, à distinguer des relations temporelles ou complémentaires, et à éviter certaines réponses abusives lorsque la variante non répondable ne permet pas de conclure. La métrique de précision rend le classement lisible, mais elle ne capture pas toute la qualité du raisonnement multimodal, notamment la robustesse hors distribution ou l’explication des choix. La fiabilité doit aussi être interprétée avec prudence, car les scores de la base sont majoritairement auto-déclarés par les éditeurs plutôt que systématiquement mesurés dans un protocole indépendant. Le classement suggère un niveau déjà élevé des meilleurs systèmes, avec Qwen3 VL 32B Thinking en tête à 80%, au-dessus d’une médiane de 73% sur les modèles référencés. Cet écart montre une hiérarchie réelle, mais pas une domination écrasante. Les limites habituelles demeurent: risque de saturation progressive, possible contamination des données publiques, portée centrée sur des QCM en anglais et sur les relations multi-images définies par le benchmark.

Sources des scores : llm-stats.

MuirBench

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23