VLMsAreBlind
VLMsAreBlind est un benchmark multimodal conçu pour mettre en évidence les angles morts des vision-language models face à des tâches visuelles très simples pour l’humain. Créé par Auburn University et University of Alberta, avec Anh Totti Nguyen et al., il examine des situations…
VLMsAreBlind est un benchmark multimodal conçu pour mettre en évidence les angles morts des vision-language models face à des tâches visuelles très simples pour l’humain. Créé par Auburn University et University of Alberta, avec Anh Totti Nguyen et al., il examine des situations géométriques élémentaires où le raisonnement visuel peut se révéler fragile.
Le benchmark repose sur la suite BlindTest et pose des questions visuelles à réponse courte, en anglais. Il sert à évaluer si un modèle comprend réellement des configurations comme des cercles qui se chevauchent, des lignes qui se croisent, une lettre entourée ou un comptage de cercles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auburn University et University of Alberta (Anh Totti Nguyen et al.) |
| Capacités mesurées | Détection des angles morts des VLM : tâches géométriques triviales pour l'humain (cercles qui se chevauchent, lignes qui se croisent, lettre entourée, comptage de cercles) |
| Modalité | Multimodal |
| Type de questions | questions visuelles simples (réponse courte) |
| Métrique d'évaluation | exactitude (accuracy) |
| Accès | Public |
| Langues | anglais (multimodal) |
| Taille du jeu | 7 tâches (suite BlindTest) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-35B-A3B | Qwen | 97,0 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.6-27B | Qwen | 97,0 % | 21 avril 2026 | Auto-déclaré |
| 3 | Qwen3.5-27B | Qwen | 96,9 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 96,7 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 97,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur VLMsAreBlind suggère qu’un modèle parvient à résoudre des tests visuels élémentaires qui ciblent des défaillances spécifiques des VLM, plutôt qu’une compréhension visuelle générale. Dans la base, les scores sont très resserrés, avec une médiane à 97% et un meilleur résultat également à 97% pour Qwen3.5-35B-A3B. Ce niveau indique une possible saturation du benchmark sur les modèles suivis, ce qui limite sa capacité à départager finement les systèmes les plus performants. La fiabilité doit aussi être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, plutôt que mesurés de manière indépendante. Comme le benchmark est public, un risque de contamination ou d’optimisation ciblée ne peut pas être écarté. Sa portée reste volontairement étroite: il teste des angles morts géométriques simples, pas l’ensemble des capacités multimodales. Le classement révèle donc surtout la robustesse sur ces cas précis.
Sources des scores : llm-stats.