Hallusion Bench
Hallusion Bench est un benchmark public conçu par Tianyi Guan et al. pour évaluer le raisonnement multimodal image-texte des grands modèles vision-langage. Il s’intéresse à leur capacité à répondre à des questions oui/non en s’appuyant à la fois sur une image et sur un contexte textuel.
Hallusion Bench est un benchmark public conçu par Tianyi Guan et al. pour évaluer le raisonnement multimodal image-texte des grands modèles vision-langage. Il s’intéresse à leur capacité à répondre à des questions oui/non en s’appuyant à la fois sur une image et sur un contexte textuel.
Le benchmark cible deux fragilités importantes des LVLMs : les hallucinations linguistiques et les illusions visuelles. Il sert ainsi à mesurer la robustesse des modèles lorsque l’information visuelle et le langage peuvent induire des erreurs d’interprétation.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Tianyi Guan et al. |
| Capacités mesurées | raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | questions oui/non sur image et contexte textuel |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 346 images et 1 129 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-27B | Qwen | 70,0 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.6-35B-A3B | Qwen | 69,8 % | 16 avril 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 67,9 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 67,6 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3 VL 32B Thinking | Qwen | 67,4 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 235B A22B Thinking | Qwen | 66,7 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 30B A3B Thinking | Qwen | 66,0 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 8B Thinking | Qwen | 65,4 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 4B Thinking | Qwen | 64,1 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 32B Instruct | Qwen | 63,8 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 235B A22B Instruct | Qwen | 63,2 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 30B A3B Instruct | Qwen | 61,5 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 8B Instruct | Qwen | 61,1 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 4B Instruct | Qwen | 57,6 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen2.5 VL 72B Instruct | Qwen | 55,2 % | 26 janvier 2025 | Auto-déclaré |
| 16 | Qwen2.5 VL 7B Instruct | Qwen | 52,9 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 64,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Hallusion Bench indique qu’un modèle parvient plus souvent à aligner correctement l’information visuelle et le contexte textuel, tout en résistant aux réponses plausibles mais fausses. La métrique utilisée, l’accuracy, facilite la comparaison directe, mais la fiabilité du classement doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.
Le score médian de 65% et le meilleur résultat observé, Qwen3.5-27B à 70%, suggèrent un benchmark encore discriminant dans l’ensemble évalué, sans saturation manifeste. Le classement met en avant des écarts de performance sur une compétence précise, le raisonnement image-contexte sous contrainte d’hallucination, plutôt qu’une capacité générale. Ses limites tiennent à sa portée linguistique en anglais, à son format oui/non et au risque habituel de contamination des jeux publics, qui peut affecter l’interprétation des résultats.
Sources des scores : llm-stats.