Vision & multimodal

VLMsAreBlind

VLMsAreBlind est un benchmark multimodal conçu pour mettre en évidence les angles morts des vision-language models face à des tâches visuelles très simples pour l’humain. Créé par Auburn University et University of Alberta, avec Anh Totti Nguyen et al., il examine des situations…

Le benchmark repose sur la suite BlindTest et pose des questions visuelles à réponse courte, en anglais. Il sert à évaluer si un modèle comprend réellement des configurations comme des cercles qui se chevauchent, des lignes qui se croisent, une lettre entourée ou un comptage de cercles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auburn University et University of Alberta (Anh Totti Nguyen et al.)
Capacités mesurées	Détection des angles morts des VLM : tâches géométriques triviales pour l'humain (cercles qui se chevauchent, lignes qui se croisent, lettre entourée, comptage de cercles)
Modalité	Multimodal
Type de questions	questions visuelles simples (réponse courte)
Métrique d'évaluation	exactitude (accuracy)
Accès	Public
Langues	anglais (multimodal)
Taille du jeu	7 tâches (suite BlindTest)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-35B-A3B	Qwen	97,0 %	24 février 2026	Auto-déclaré
2	Qwen3.6-27B	Qwen	97,0 %	21 avril 2026	Auto-déclaré
3	Qwen3.5-27B	Qwen	96,9 %	24 février 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	96,7 %	24 février 2026	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 97,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VLMsAreBlind suggère qu’un modèle parvient à résoudre des tests visuels élémentaires qui ciblent des défaillances spécifiques des VLM, plutôt qu’une compréhension visuelle générale. Dans la base, les scores sont très resserrés, avec une médiane à 97% et un meilleur résultat également à 97% pour Qwen3.5-35B-A3B. Ce niveau indique une possible saturation du benchmark sur les modèles suivis, ce qui limite sa capacité à départager finement les systèmes les plus performants. La fiabilité doit aussi être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, plutôt que mesurés de manière indépendante. Comme le benchmark est public, un risque de contamination ou d’optimisation ciblée ne peut pas être écarté. Sa portée reste volontairement étroite: il teste des angles morts géométriques simples, pas l’ensemble des capacités multimodales. Le classement révèle donc surtout la robustesse sur ces cas précis.

Sources des scores : llm-stats.

VLMsAreBlind

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench