Vision & multimodal

BLINK

BLINK est un benchmark publié en 2024 par Zeyi Fu et al. pour évaluer la perception visuelle fondamentale des modèles multimodaux. Il reformule des tâches classiques de vision par ordinateur sous forme de QCM associés à une ou plusieurs images, afin de tester des capacités qui dépassent…

Le benchmark cible notamment la profondeur relative, les correspondances visuelles, la localisation, le comptage, le raisonnement spatial, le raisonnement multi-vues et la détection forensique. Son rôle est de mesurer si un modèle multimodal perçoit réellement les relations visuelles, plutôt que de seulement produire des réponses plausibles à partir du texte ou d’indices superficiels.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Zeyi Fu et al.
Capacités mesurées	3D, multimodal, raisonnement, raisonnement spatial, vision
Modalité	Multimodal
Type de questions	QCM multimodaux avec une ou plusieurs images
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	3 807 questions
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	81,4 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	79,4 %	24 juin 2026	Auto-déclaré
3	Qwen3 VL 235B A22B Instruct	Qwen	70,7 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 8B Instruct	Qwen	69,1 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 8B Thinking	Qwen	68,7 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 32B Thinking	Qwen	68,5 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 30B A3B Instruct	Qwen	67,7 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 32B Instruct	Qwen	67,3 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 235B A22B Thinking	Qwen	67,1 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 4B Instruct	Qwen	65,8 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 30B A3B Thinking	Qwen	65,4 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 4B Thinking	Qwen	63,4 %	22 septembre 2025	Auto-déclaré
13	Phi-4-multimodal-instruct	Microsoft	61,3 %	1 février 2025	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 67,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BLINK indique une meilleure capacité à résoudre des problèmes visuels élémentaires présentés sous forme de choix multiples, avec des images seules ou multiples. Le classement suggère un écart encore marqué entre les modèles, le meilleur résultat recensé dans la base étant obtenu par Seed 2.1 Pro, tandis que le score médian reste inférieur. Cette distribution montre que la perception visuelle fine demeure un point de différenciation important pour les modèles multimodaux.

La lecture des résultats doit toutefois rester prudente. Les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite dans un cadre indépendant. BLINK mesure un ensemble ciblé de capacités perceptives en anglais et sous format QCM, ce qui ne couvre pas toute la compréhension visuelle ni les usages ouverts. Comme pour tout benchmark public, la contamination des données d’évaluation et la saturation progressive peuvent aussi réduire son pouvoir discriminant au fil du temps.

Sources des scores : llm-stats.

BLINK

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench