Hallusion Bench

Hallusion Bench est un benchmark public conçu par Tianyi Guan et al. pour évaluer le raisonnement multimodal image-texte des grands modèles vision-langage. Il s’intéresse à leur capacité à répondre à des questions oui/non en s’appuyant à la fois sur une image et sur un contexte textuel.

Hallusion Bench est un benchmark public conçu par Tianyi Guan et al. pour évaluer le raisonnement multimodal image-texte des grands modèles vision-langage. Il s’intéresse à leur capacité à répondre à des questions oui/non en s’appuyant à la fois sur une image et sur un contexte textuel.

Le benchmark cible deux fragilités importantes des LVLMs : les hallucinations linguistiques et les illusions visuelles. Il sert ainsi à mesurer la robustesse des modèles lorsque l’information visuelle et le langage peuvent induire des erreurs d’interprétation.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkTianyi Guan et al.
Capacités mesuréesraisonnement, vision
ModalitéMultimodal
Type de questionsquestions oui/non sur image et contexte textuel
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu346 images et 1 129 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 16)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-27BQwen70,0 %24 février 2026Auto-déclaré
2Qwen3.6-35B-A3BQwen69,8 %16 avril 2026Auto-déclaré
3Qwen3.5-35B-A3BQwen67,9 %24 février 2026Auto-déclaré
4Qwen3.5-122B-A10BQwen67,6 %24 février 2026Auto-déclaré
5Qwen3 VL 32B ThinkingQwen67,4 %22 septembre 2025Auto-déclaré
6Qwen3 VL 235B A22B ThinkingQwen66,7 %22 septembre 2025Auto-déclaré
7Qwen3 VL 30B A3B ThinkingQwen66,0 %22 septembre 2025Auto-déclaré
8Qwen3 VL 8B ThinkingQwen65,4 %22 septembre 2025Auto-déclaré
9Qwen3 VL 4B ThinkingQwen64,1 %22 septembre 2025Auto-déclaré
10Qwen3 VL 32B InstructQwen63,8 %22 septembre 2025Auto-déclaré
11Qwen3 VL 235B A22B InstructQwen63,2 %22 septembre 2025Auto-déclaré
12Qwen3 VL 30B A3B InstructQwen61,5 %22 septembre 2025Auto-déclaré
13Qwen3 VL 8B InstructQwen61,1 %22 septembre 2025Auto-déclaré
14Qwen3 VL 4B InstructQwen57,6 %22 septembre 2025Auto-déclaré
15Qwen2.5 VL 72B InstructQwen55,2 %26 janvier 2025Auto-déclaré
16Qwen2.5 VL 7B InstructQwen52,9 %26 janvier 2025Auto-déclaré

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 64,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Hallusion Bench indique qu’un modèle parvient plus souvent à aligner correctement l’information visuelle et le contexte textuel, tout en résistant aux réponses plausibles mais fausses. La métrique utilisée, l’accuracy, facilite la comparaison directe, mais la fiabilité du classement doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.

Le score médian de 65% et le meilleur résultat observé, Qwen3.5-27B à 70%, suggèrent un benchmark encore discriminant dans l’ensemble évalué, sans saturation manifeste. Le classement met en avant des écarts de performance sur une compétence précise, le raisonnement image-contexte sous contrainte d’hallucination, plutôt qu’une capacité générale. Ses limites tiennent à sa portée linguistique en anglais, à son format oui/non et au risque habituel de contamination des jeux publics, qui peut affecter l’interprétation des résultats.


Sources des scores : llm-stats.