Vision & multimodal

Hallusion Bench

Hallusion Bench est un benchmark public conçu par Tianyi Guan et al. pour évaluer le raisonnement multimodal image-texte des grands modèles vision-langage. Il s’intéresse à leur capacité à répondre à des questions oui/non en s’appuyant à la fois sur une image et sur un contexte textuel.

Le benchmark cible deux fragilités importantes des LVLMs : les hallucinations linguistiques et les illusions visuelles. Il sert ainsi à mesurer la robustesse des modèles lorsque l’information visuelle et le langage peuvent induire des erreurs d’interprétation.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Tianyi Guan et al.
Capacités mesurées	raisonnement, vision
Modalité	Multimodal
Type de questions	questions oui/non sur image et contexte textuel
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	346 images et 1 129 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 16)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-27B	Qwen	70,0 %	24 février 2026	Auto-déclaré
2	Qwen3.6-35B-A3B	Qwen	69,8 %	16 avril 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	67,9 %	24 février 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	67,6 %	24 février 2026	Auto-déclaré
5	Qwen3 VL 32B Thinking	Qwen	67,4 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 235B A22B Thinking	Qwen	66,7 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 30B A3B Thinking	Qwen	66,0 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 8B Thinking	Qwen	65,4 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 4B Thinking	Qwen	64,1 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 32B Instruct	Qwen	63,8 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 235B A22B Instruct	Qwen	63,2 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 30B A3B Instruct	Qwen	61,5 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 8B Instruct	Qwen	61,1 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 4B Instruct	Qwen	57,6 %	22 septembre 2025	Auto-déclaré
15	Qwen2.5 VL 72B Instruct	Qwen	55,2 %	26 janvier 2025	Auto-déclaré
16	Qwen2.5 VL 7B Instruct	Qwen	52,9 %	26 janvier 2025	Auto-déclaré

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 64,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Hallusion Bench indique qu’un modèle parvient plus souvent à aligner correctement l’information visuelle et le contexte textuel, tout en résistant aux réponses plausibles mais fausses. La métrique utilisée, l’accuracy, facilite la comparaison directe, mais la fiabilité du classement doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.

Le score médian de 65% et le meilleur résultat observé, Qwen3.5-27B à 70%, suggèrent un benchmark encore discriminant dans l’ensemble évalué, sans saturation manifeste. Le classement met en avant des écarts de performance sur une compétence précise, le raisonnement image-contexte sous contrainte d’hallucination, plutôt qu’une capacité générale. Ses limites tiennent à sa portée linguistique en anglais, à son format oui/non et au risque habituel de contamination des jeux publics, qui peut affecter l’interprétation des résultats.

Sources des scores : llm-stats.

Hallusion Bench

Carte d'identité

Classement des modèles (top 16)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench