VLMsAreBlind

VLMsAreBlind est un benchmark multimodal conçu pour mettre en évidence les angles morts des vision-language models face à des tâches visuelles très simples pour l’humain. Créé par Auburn University et University of Alberta, avec Anh Totti Nguyen et al., il examine des situations…

VLMsAreBlind est un benchmark multimodal conçu pour mettre en évidence les angles morts des vision-language models face à des tâches visuelles très simples pour l’humain. Créé par Auburn University et University of Alberta, avec Anh Totti Nguyen et al., il examine des situations géométriques élémentaires où le raisonnement visuel peut se révéler fragile.

Le benchmark repose sur la suite BlindTest et pose des questions visuelles à réponse courte, en anglais. Il sert à évaluer si un modèle comprend réellement des configurations comme des cercles qui se chevauchent, des lignes qui se croisent, une lettre entourée ou un comptage de cercles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuburn University et University of Alberta (Anh Totti Nguyen et al.)
Capacités mesuréesDétection des angles morts des VLM : tâches géométriques triviales pour l'humain (cercles qui se chevauchent, lignes qui se croisent, lettre entourée, comptage de cercles)
ModalitéMultimodal
Type de questionsquestions visuelles simples (réponse courte)
Métrique d'évaluationexactitude (accuracy)
AccèsPublic
Languesanglais (multimodal)
Taille du jeu7 tâches (suite BlindTest)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-35B-A3BQwen97,0 %24 février 2026Auto-déclaré
2Qwen3.6-27BQwen97,0 %21 avril 2026Auto-déclaré
3Qwen3.5-27BQwen96,9 %24 février 2026Auto-déclaré
4Qwen3.5-122B-A10BQwen96,7 %24 février 2026Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 97,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur VLMsAreBlind suggère qu’un modèle parvient à résoudre des tests visuels élémentaires qui ciblent des défaillances spécifiques des VLM, plutôt qu’une compréhension visuelle générale. Dans la base, les scores sont très resserrés, avec une médiane à 97% et un meilleur résultat également à 97% pour Qwen3.5-35B-A3B. Ce niveau indique une possible saturation du benchmark sur les modèles suivis, ce qui limite sa capacité à départager finement les systèmes les plus performants. La fiabilité doit aussi être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, plutôt que mesurés de manière indépendante. Comme le benchmark est public, un risque de contamination ou d’optimisation ciblée ne peut pas être écarté. Sa portée reste volontairement étroite: il teste des angles morts géométriques simples, pas l’ensemble des capacités multimodales. Le classement révèle donc surtout la robustesse sur ces cas précis.


Sources des scores : llm-stats.