ScreenSpot Pro
ScreenSpot Pro est un benchmark d’ancrage visuel pour interfaces graphiques, créé par les auteurs de ScreenSpot-Pro, dont Kaixin Li et al. Il évalue la capacité de modèles multimodaux à localiser un élément d’interface à partir d’une instruction, sur des captures haute résolution issues…
ScreenSpot Pro est un benchmark d’ancrage visuel pour interfaces graphiques, créé par les auteurs de ScreenSpot-Pro, dont Kaixin Li et al. Il évalue la capacité de modèles multimodaux à localiser un élément d’interface à partir d’une instruction, sur des captures haute résolution issues de logiciels professionnels.
Son intérêt est de tester la perception GUI dans des environnements plus complexes que les captures grand public ou recadrées. Le benchmark met l’accent sur des éléments minuscules, denses et contextualisés, afin de mesurer si un modèle peut produire un point de clic correct dans la zone cible.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs ScreenSpot-Pro (Kaixin Li et al.) |
| Capacités mesurées | Ancrage visuel d'interfaces GUI professionnelles haute resolution avec des elements minuscules et denses |
| Modalité | Multimodal |
| Type de questions | ancrage GUI : prediction de la localisation d'un element a partir d'une instruction sur captures haute resolution |
| Métrique d'évaluation | exactitude d'ancrage (clic/point correct dans la bounding box cible) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1 581 paires capture-instruction annotees par experts, 23 applications, 5 industries, 3 OS |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.8 | Anthropic | 87,9 % | 28 mai 2026 | Auto-déclaré |
| 2 | GPT-5.2 | OpenAI | 86,3 % | 11 décembre 2025 | Auto-déclaré |
| 3 | Muse Spark | Meta | 84,1 % | 8 avril 2026 | Auto-déclaré |
| 4 | Qwen3.7-Plus | Qwen | 79,0 % | 31 mai 2026 | Auto-déclaré |
| 5 | Gemini 3 Pro | 72,7 % | 18 novembre 2025 | Auto-déclaré | |
| 6 | Qwen3.5-122B-A10B | Qwen | 70,4 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 70,3 % | 24 février 2026 | Auto-déclaré |
| 8 | Gemini 3 Flash | 69,1 % | 17 décembre 2025 | Auto-déclaré | |
| 9 | Qwen3.5-35B-A3B | Qwen | 68,6 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3.6 Plus | Qwen | 68,2 % | 31 mars 2026 | Auto-déclaré |
| 11 | Qwen3 VL 235B A22B Instruct | Qwen | 62,0 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 235B A22B Thinking | Qwen | 61,8 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Instruct | Qwen | 60,5 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 4B Instruct | Qwen | 59,5 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 32B Instruct | Qwen | 57,9 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 30B A3B Thinking | Qwen | 57,3 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 32B Thinking | Qwen | 57,1 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 8B Instruct | Qwen | 54,6 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 4B Thinking | Qwen | 49,2 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 8B Thinking | Qwen | 46,6 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 23 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 61,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ScreenSpot Pro indique une bonne capacité à relier une consigne textuelle à un élément précis d’une interface professionnelle, même lorsque l’écran est dense et en haute résolution. Cette performance est directement liée à l’utilisabilité potentielle d’un modèle dans des tâches d’agent GUI, où une erreur de localisation peut empêcher l’action attendue. L’évaluation repose sur une exactitude d’ancrage, c’est-à-dire la présence du point prédit dans la bounding box cible, avec des annotations expertes. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le meilleur résultat recensé, Claude Opus 4.8 à 88 %, se détache d’un score médian de 62 %, ce qui suggère des écarts importants entre modèles. Les limites principales concernent la portée linguistique en anglais, le risque général de contamination pour tout benchmark public, et une éventuelle saturation future si les meilleurs modèles approchent le plafond de la métrique.
Sources des scores : llm-stats.