ScreenSpot
ScreenSpot est un benchmark d’évaluation du grounding visuel dans les interfaces graphiques, publié en 2024 par Kanzhi Cheng et al. Il teste la capacité d’un modèle multimodal ou d’un agent visuel à interpréter une capture d’écran et à localiser précisément l’élément désigné par une…
ScreenSpot est un benchmark d’évaluation du grounding visuel dans les interfaces graphiques, publié en 2024 par Kanzhi Cheng et al. Il teste la capacité d’un modèle multimodal ou d’un agent visuel à interpréter une capture d’écran et à localiser précisément l’élément désigné par une instruction en langage naturel.
Le benchmark couvre des environnements mobiles, desktop et web, avec des éléments d’interface de type texte, icône ou widget. Il sert à mesurer une compétence clé pour les agents capables d’agir dans des logiciels, des sites web ou des systèmes d’exploitation à partir d’instructions textuelles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Kanzhi Cheng et al. |
| Capacités mesurées | ancrage factuel, multimodal, raisonnement spatial, vision |
| Modalité | Multimodal |
| Type de questions | tâches de grounding visuel d'interface graphique : localiser un élément à l'écran à partir d'une instruction en langage naturel |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 1 272 instructions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 32B Instruct | Qwen | 95,8 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 32B Thinking | Qwen | 95,7 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 95,4 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 235B A22B Thinking | Qwen | 95,4 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 30B A3B Instruct | Qwen | 94,7 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 30B A3B Thinking | Qwen | 94,7 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 8B Instruct | Qwen | 94,4 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 4B Instruct | Qwen | 94,0 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 8B Thinking | Qwen | 93,6 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 4B Thinking | Qwen | 92,9 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen2.5 VL 32B Instruct | Qwen | 88,5 % | 28 février 2025 | Auto-déclaré |
| 12 | Nova 2 Pro | Amazon | 88,1 % | 2 décembre 2025 | Auto-déclaré |
| 13 | Qwen2.5 VL 72B Instruct | Qwen | 87,1 % | 26 janvier 2025 | Auto-déclaré |
| 14 | Nova 2 Omni | Amazon | 85,4 % | 2 décembre 2025 | Auto-déclaré |
| 15 | Qwen2.5 VL 7B Instruct | Qwen | 84,7 % | 26 janvier 2025 | Auto-déclaré |
| 16 | Nova 2 Lite | Amazon | 83,3 % | 2 décembre 2025 | Auto-déclaré |
Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 93,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ScreenSpot indique qu’un modèle associe efficacement une consigne textuelle à un élément visuel précis dans une interface graphique. Cette compétence est centrale pour les agents visuels, car une action correcte dépend souvent d’une localisation fiable avant tout clic ou interaction. Le classement de la base montre un niveau très élevé, avec une médiane à 94 % et un meilleur résultat à 96 % pour Qwen3 VL 32B Instruct, ce qui suggère une forte concentration des performances en haut du tableau. Cette proximité limite toutefois le pouvoir discriminant du benchmark entre les meilleurs modèles. L’interprétation doit aussi rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement indépendante et reproductible. ScreenSpot reste spécialisé dans des instructions en anglais et dans le grounding d’éléments sur captures d’écran, sans couvrir à lui seul la planification, l’exécution d’actions longues ou la robustesse face à des interfaces inédites. Comme tout jeu public, un risque de contamination ne peut pas être exclu.
Sources des scores : llm-stats.