ScreenSpot Pro

ScreenSpot Pro est un benchmark d’ancrage visuel pour interfaces graphiques, créé par les auteurs de ScreenSpot-Pro, dont Kaixin Li et al. Il évalue la capacité de modèles multimodaux à localiser un élément d’interface à partir d’une instruction, sur des captures haute résolution issues…

ScreenSpot Pro est un benchmark d’ancrage visuel pour interfaces graphiques, créé par les auteurs de ScreenSpot-Pro, dont Kaixin Li et al. Il évalue la capacité de modèles multimodaux à localiser un élément d’interface à partir d’une instruction, sur des captures haute résolution issues de logiciels professionnels.

Son intérêt est de tester la perception GUI dans des environnements plus complexes que les captures grand public ou recadrées. Le benchmark met l’accent sur des éléments minuscules, denses et contextualisés, afin de mesurer si un modèle peut produire un point de clic correct dans la zone cible.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs ScreenSpot-Pro (Kaixin Li et al.)
Capacités mesuréesAncrage visuel d'interfaces GUI professionnelles haute resolution avec des elements minuscules et denses
ModalitéMultimodal
Type de questionsancrage GUI : prediction de la localisation d'un element a partir d'une instruction sur captures haute resolution
Métrique d'évaluationexactitude d'ancrage (clic/point correct dans la bounding box cible)
AccèsPublic
Languesanglais
Taille du jeu1 581 paires capture-instruction annotees par experts, 23 applications, 5 industries, 3 OS
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.8Anthropic87,9 %28 mai 2026Auto-déclaré
2GPT-5.2OpenAI86,3 %11 décembre 2025Auto-déclaré
3Muse SparkMeta84,1 %8 avril 2026Auto-déclaré
4Qwen3.7-PlusQwen79,0 %31 mai 2026Auto-déclaré
5Gemini 3 ProGoogle72,7 %18 novembre 2025Auto-déclaré
6Qwen3.5-122B-A10BQwen70,4 %24 février 2026Auto-déclaré
7Qwen3.5-27BQwen70,3 %24 février 2026Auto-déclaré
8Gemini 3 FlashGoogle69,1 %17 décembre 2025Auto-déclaré
9Qwen3.5-35B-A3BQwen68,6 %24 février 2026Auto-déclaré
10Qwen3.6 PlusQwen68,2 %31 mars 2026Auto-déclaré
11Qwen3 VL 235B A22B InstructQwen62,0 %22 septembre 2025Auto-déclaré
12Qwen3 VL 235B A22B ThinkingQwen61,8 %22 septembre 2025Auto-déclaré
13Qwen3 VL 30B A3B InstructQwen60,5 %22 septembre 2025Auto-déclaré
14Qwen3 VL 4B InstructQwen59,5 %22 septembre 2025Auto-déclaré
15Qwen3 VL 32B InstructQwen57,9 %22 septembre 2025Auto-déclaré
16Qwen3 VL 30B A3B ThinkingQwen57,3 %22 septembre 2025Auto-déclaré
17Qwen3 VL 32B ThinkingQwen57,1 %22 septembre 2025Auto-déclaré
18Qwen3 VL 8B InstructQwen54,6 %22 septembre 2025Auto-déclaré
19Qwen3 VL 4B ThinkingQwen49,2 %22 septembre 2025Auto-déclaré
20Qwen3 VL 8B ThinkingQwen46,6 %22 septembre 2025Auto-déclaré

Classement établi sur 23 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 61,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ScreenSpot Pro indique une bonne capacité à relier une consigne textuelle à un élément précis d’une interface professionnelle, même lorsque l’écran est dense et en haute résolution. Cette performance est directement liée à l’utilisabilité potentielle d’un modèle dans des tâches d’agent GUI, où une erreur de localisation peut empêcher l’action attendue. L’évaluation repose sur une exactitude d’ancrage, c’est-à-dire la présence du point prédit dans la bounding box cible, avec des annotations expertes. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le meilleur résultat recensé, Claude Opus 4.8 à 88 %, se détache d’un score médian de 62 %, ce qui suggère des écarts importants entre modèles. Les limites principales concernent la portée linguistique en anglais, le risque général de contamination pour tout benchmark public, et une éventuelle saturation future si les meilleurs modèles approchent le plafond de la métrique.


Sources des scores : llm-stats.