BLINK
BLINK est un benchmark publié en 2024 par Zeyi Fu et al. pour évaluer la perception visuelle fondamentale des modèles multimodaux. Il reformule des tâches classiques de vision par ordinateur sous forme de QCM associés à une ou plusieurs images, afin de tester des capacités qui dépassent…
BLINK est un benchmark publié en 2024 par Zeyi Fu et al. pour évaluer la perception visuelle fondamentale des modèles multimodaux. Il reformule des tâches classiques de vision par ordinateur sous forme de QCM associés à une ou plusieurs images, afin de tester des capacités qui dépassent la simple reconnaissance d’objets.
Le benchmark cible notamment la profondeur relative, les correspondances visuelles, la localisation, le comptage, le raisonnement spatial, le raisonnement multi-vues et la détection forensique. Son rôle est de mesurer si un modèle multimodal perçoit réellement les relations visuelles, plutôt que de seulement produire des réponses plausibles à partir du texte ou d’indices superficiels.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Zeyi Fu et al. |
| Capacités mesurées | 3D, multimodal, raisonnement, raisonnement spatial, vision |
| Modalité | Multimodal |
| Type de questions | QCM multimodaux avec une ou plusieurs images |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 3 807 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 81,4 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 79,4 % | 24 juin 2026 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 70,7 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 8B Instruct | Qwen | 69,1 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 8B Thinking | Qwen | 68,7 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 32B Thinking | Qwen | 68,5 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 30B A3B Instruct | Qwen | 67,7 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 32B Instruct | Qwen | 67,3 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 235B A22B Thinking | Qwen | 67,1 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 4B Instruct | Qwen | 65,8 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 30B A3B Thinking | Qwen | 65,4 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 4B Thinking | Qwen | 63,4 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Phi-4-multimodal-instruct | Microsoft | 61,3 % | 1 février 2025 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 67,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BLINK indique une meilleure capacité à résoudre des problèmes visuels élémentaires présentés sous forme de choix multiples, avec des images seules ou multiples. Le classement suggère un écart encore marqué entre les modèles, le meilleur résultat recensé dans la base étant obtenu par Seed 2.1 Pro, tandis que le score médian reste inférieur. Cette distribution montre que la perception visuelle fine demeure un point de différenciation important pour les modèles multimodaux.
La lecture des résultats doit toutefois rester prudente. Les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite dans un cadre indépendant. BLINK mesure un ensemble ciblé de capacités perceptives en anglais et sous format QCM, ce qui ne couvre pas toute la compréhension visuelle ni les usages ouverts. Comme pour tout benchmark public, la contamination des données d’évaluation et la saturation progressive peuvent aussi réduire son pouvoir discriminant au fil du temps.
Sources des scores : llm-stats.