AndroidWorld_SR
AndroidWorld_SR est un benchmark de Google Research consacré aux agents autonomes multimodaux opérant sur Android. Il évalue leur capacité à interpréter une consigne en langage naturel, percevoir une interface mobile et enchaîner des actions pour mener à bien des tâches concrètes dans…
AndroidWorld_SR est un benchmark de Google Research consacré aux agents autonomes multimodaux opérant sur Android. Il évalue leur capacité à interpréter une consigne en langage naturel, percevoir une interface mobile et enchaîner des actions pour mener à bien des tâches concrètes dans des applications réelles.
Le benchmark sert à mesurer une compétence agentique proche de l’usage pratique d’un smartphone, au-delà de la simple réponse textuelle. Il mobilise des captures d’écran, des arbres d’accessibilité et des instructions, puis juge la réussite finale des tâches.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google Research |
| Capacités mesurées | agents, généraliste, multimodal, raisonnement |
| Modalité | Multimodal |
| Type de questions | tâches agentiques sur appareil Android |
| Métrique d'évaluation | success rate |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais |
| Taille du jeu | 116 tâches programmatiques dans 20 applications Android |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-35B-A3B | Qwen | 71,1 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-122B-A10B | Qwen | 66,4 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-27B | Qwen | 64,2 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3 VL 235B A22B Instruct | Qwen | 63,7 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 32B Thinking | Qwen | 63,7 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen2.5 VL 72B Instruct | Qwen | 35,0 % | 26 janvier 2025 | Auto-déclaré |
| 7 | Qwen2.5 VL 7B Instruct | Qwen | 25,5 % | 26 janvier 2025 | Auto-déclaré |
| 8 | Qwen2.5 VL 32B Instruct | Qwen | 22,0 % | 28 février 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 63,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AndroidWorld_SR indique qu’un modèle, intégré à un agent, parvient plus souvent à transformer une instruction en actions correctes sur une interface Android. Le classement de la modelothèque montre un niveau groupé autour d’un score médian de 64 %, avec Qwen3.5-35B-A3B en tête à 71 %, ce qui suggère des écarts réels mais pas un décrochage massif entre les meilleurs systèmes recensés. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement reproduite par un tiers dans des conditions homogènes. La portée reste aussi circonscrite à des tâches en anglais, sur un ensemble fini d’applications Android et de scénarios programmatiques. La saturation ne semble pas totale, notamment au regard de la référence humaine indiquée à 80 %. Le risque de contamination ou d’optimisation spécifique au benchmark doit être surveillé, comme pour tout jeu public.
Sources des scores : llm-stats.