AndroidWorld_SR

AndroidWorld_SR est un benchmark de Google Research consacré aux agents autonomes multimodaux opérant sur Android. Il évalue leur capacité à interpréter une consigne en langage naturel, percevoir une interface mobile et enchaîner des actions pour mener à bien des tâches concrètes dans…

AndroidWorld_SR est un benchmark de Google Research consacré aux agents autonomes multimodaux opérant sur Android. Il évalue leur capacité à interpréter une consigne en langage naturel, percevoir une interface mobile et enchaîner des actions pour mener à bien des tâches concrètes dans des applications réelles.

Le benchmark sert à mesurer une compétence agentique proche de l’usage pratique d’un smartphone, au-delà de la simple réponse textuelle. Il mobilise des captures d’écran, des arbres d’accessibilité et des instructions, puis juge la réussite finale des tâches.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle Research
Capacités mesuréesagents, généraliste, multimodal, raisonnement
ModalitéMultimodal
Type de questionstâches agentiques sur appareil Android
Métrique d'évaluationsuccess rate
AccèsPublic
LicenceApache-2.0
Languesanglais
Taille du jeu116 tâches programmatiques dans 20 applications Android
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-35B-A3BQwen71,1 %24 février 2026Auto-déclaré
2Qwen3.5-122B-A10BQwen66,4 %24 février 2026Auto-déclaré
3Qwen3.5-27BQwen64,2 %24 février 2026Auto-déclaré
4Qwen3 VL 235B A22B InstructQwen63,7 %22 septembre 2025Auto-déclaré
5Qwen3 VL 32B ThinkingQwen63,7 %22 septembre 2025Auto-déclaré
6Qwen2.5 VL 72B InstructQwen35,0 %26 janvier 2025Auto-déclaré
7Qwen2.5 VL 7B InstructQwen25,5 %26 janvier 2025Auto-déclaré
8Qwen2.5 VL 32B InstructQwen22,0 %28 février 2025Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 63,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AndroidWorld_SR indique qu’un modèle, intégré à un agent, parvient plus souvent à transformer une instruction en actions correctes sur une interface Android. Le classement de la modelothèque montre un niveau groupé autour d’un score médian de 64 %, avec Qwen3.5-35B-A3B en tête à 71 %, ce qui suggère des écarts réels mais pas un décrochage massif entre les meilleurs systèmes recensés. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement reproduite par un tiers dans des conditions homogènes. La portée reste aussi circonscrite à des tâches en anglais, sur un ensemble fini d’applications Android et de scénarios programmatiques. La saturation ne semble pas totale, notamment au regard de la référence humaine indiquée à 80 %. Le risque de contamination ou d’optimisation spécifique au benchmark doit être surveillé, comme pour tout jeu public.


Sources des scores : llm-stats.