BLINK

BLINK est un benchmark publié en 2024 par Zeyi Fu et al. pour évaluer la perception visuelle fondamentale des modèles multimodaux. Il reformule des tâches classiques de vision par ordinateur sous forme de QCM associés à une ou plusieurs images, afin de tester des capacités qui dépassent…

BLINK est un benchmark publié en 2024 par Zeyi Fu et al. pour évaluer la perception visuelle fondamentale des modèles multimodaux. Il reformule des tâches classiques de vision par ordinateur sous forme de QCM associés à une ou plusieurs images, afin de tester des capacités qui dépassent la simple reconnaissance d’objets.

Le benchmark cible notamment la profondeur relative, les correspondances visuelles, la localisation, le comptage, le raisonnement spatial, le raisonnement multi-vues et la détection forensique. Son rôle est de mesurer si un modèle multimodal perçoit réellement les relations visuelles, plutôt que de seulement produire des réponses plausibles à partir du texte ou d’indices superficiels.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkZeyi Fu et al.
Capacités mesurées3D, multimodal, raisonnement, raisonnement spatial, vision
ModalitéMultimodal
Type de questionsQCM multimodaux avec une ou plusieurs images
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeu3 807 questions
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance81,4 %24 juin 2026Auto-déclaré
2Seed 2.1 Turbobytedance79,4 %24 juin 2026Auto-déclaré
3Qwen3 VL 235B A22B InstructQwen70,7 %22 septembre 2025Auto-déclaré
4Qwen3 VL 8B InstructQwen69,1 %22 septembre 2025Auto-déclaré
5Qwen3 VL 8B ThinkingQwen68,7 %22 septembre 2025Auto-déclaré
6Qwen3 VL 32B ThinkingQwen68,5 %22 septembre 2025Auto-déclaré
7Qwen3 VL 30B A3B InstructQwen67,7 %22 septembre 2025Auto-déclaré
8Qwen3 VL 32B InstructQwen67,3 %22 septembre 2025Auto-déclaré
9Qwen3 VL 235B A22B ThinkingQwen67,1 %22 septembre 2025Auto-déclaré
10Qwen3 VL 4B InstructQwen65,8 %22 septembre 2025Auto-déclaré
11Qwen3 VL 30B A3B ThinkingQwen65,4 %22 septembre 2025Auto-déclaré
12Qwen3 VL 4B ThinkingQwen63,4 %22 septembre 2025Auto-déclaré
13Phi-4-multimodal-instructMicrosoft61,3 %1 février 2025Auto-déclaré

Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 67,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BLINK indique une meilleure capacité à résoudre des problèmes visuels élémentaires présentés sous forme de choix multiples, avec des images seules ou multiples. Le classement suggère un écart encore marqué entre les modèles, le meilleur résultat recensé dans la base étant obtenu par Seed 2.1 Pro, tandis que le score médian reste inférieur. Cette distribution montre que la perception visuelle fine demeure un point de différenciation important pour les modèles multimodaux.

La lecture des résultats doit toutefois rester prudente. Les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite dans un cadre indépendant. BLINK mesure un ensemble ciblé de capacités perceptives en anglais et sous format QCM, ce qui ne couvre pas toute la compréhension visuelle ni les usages ouverts. Comme pour tout benchmark public, la contamination des données d’évaluation et la saturation progressive peuvent aussi réduire son pouvoir discriminant au fil du temps.


Sources des scores : llm-stats.