Vision & multimodal

ScreenSpot Pro

ScreenSpot Pro est un benchmark d’ancrage visuel pour interfaces graphiques, créé par les auteurs de ScreenSpot-Pro, dont Kaixin Li et al. Il évalue la capacité de modèles multimodaux à localiser un élément d’interface à partir d’une instruction, sur des captures haute résolution issues…

Son intérêt est de tester la perception GUI dans des environnements plus complexes que les captures grand public ou recadrées. Le benchmark met l’accent sur des éléments minuscules, denses et contextualisés, afin de mesurer si un modèle peut produire un point de clic correct dans la zone cible.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs ScreenSpot-Pro (Kaixin Li et al.)
Capacités mesurées	Ancrage visuel d'interfaces GUI professionnelles haute resolution avec des elements minuscules et denses
Modalité	Multimodal
Type de questions	ancrage GUI : prediction de la localisation d'un element a partir d'une instruction sur captures haute resolution
Métrique d'évaluation	exactitude d'ancrage (clic/point correct dans la bounding box cible)
Accès	Public
Langues	anglais
Taille du jeu	1 581 paires capture-instruction annotees par experts, 23 applications, 5 industries, 3 OS
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.8	Anthropic	87,9 %	28 mai 2026	Auto-déclaré
2	GPT-5.2	OpenAI	86,3 %	11 décembre 2025	Auto-déclaré
3	Muse Spark	Meta	84,1 %	8 avril 2026	Auto-déclaré
4	Qwen3.7-Plus	Qwen	79,0 %	31 mai 2026	Auto-déclaré
5	Gemini 3 Pro	Google	72,7 %	18 novembre 2025	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	70,4 %	24 février 2026	Auto-déclaré
7	Qwen3.5-27B	Qwen	70,3 %	24 février 2026	Auto-déclaré
8	Gemini 3 Flash	Google	69,1 %	17 décembre 2025	Auto-déclaré
9	Qwen3.5-35B-A3B	Qwen	68,6 %	24 février 2026	Auto-déclaré
10	Qwen3.6 Plus	Qwen	68,2 %	31 mars 2026	Auto-déclaré
11	Qwen3 VL 235B A22B Instruct	Qwen	62,0 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 235B A22B Thinking	Qwen	61,8 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Instruct	Qwen	60,5 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 4B Instruct	Qwen	59,5 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 32B Instruct	Qwen	57,9 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 30B A3B Thinking	Qwen	57,3 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 32B Thinking	Qwen	57,1 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 8B Instruct	Qwen	54,6 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 4B Thinking	Qwen	49,2 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 8B Thinking	Qwen	46,6 %	22 septembre 2025	Auto-déclaré

Classement établi sur 23 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 61,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ScreenSpot Pro indique une bonne capacité à relier une consigne textuelle à un élément précis d’une interface professionnelle, même lorsque l’écran est dense et en haute résolution. Cette performance est directement liée à l’utilisabilité potentielle d’un modèle dans des tâches d’agent GUI, où une erreur de localisation peut empêcher l’action attendue. L’évaluation repose sur une exactitude d’ancrage, c’est-à-dire la présence du point prédit dans la bounding box cible, avec des annotations expertes. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le meilleur résultat recensé, Claude Opus 4.8 à 88 %, se détache d’un score médian de 62 %, ce qui suggère des écarts importants entre modèles. Les limites principales concernent la portée linguistique en anglais, le risque général de contamination pour tout benchmark public, et une éventuelle saturation future si les meilleurs modèles approchent le plafond de la métrique.

Sources des scores : llm-stats.

ScreenSpot Pro

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench