Agents & outils

AndroidWorld_SR

AndroidWorld_SR est un benchmark de Google Research consacré aux agents autonomes multimodaux opérant sur Android. Il évalue leur capacité à interpréter une consigne en langage naturel, percevoir une interface mobile et enchaîner des actions pour mener à bien des tâches concrètes dans…

Le benchmark sert à mesurer une compétence agentique proche de l’usage pratique d’un smartphone, au-delà de la simple réponse textuelle. Il mobilise des captures d’écran, des arbres d’accessibilité et des instructions, puis juge la réussite finale des tâches.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google Research
Capacités mesurées	agents, généraliste, multimodal, raisonnement
Modalité	Multimodal
Type de questions	tâches agentiques sur appareil Android
Métrique d'évaluation	success rate
Accès	Public
Licence	Apache-2.0
Langues	anglais
Taille du jeu	116 tâches programmatiques dans 20 applications Android
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-35B-A3B	Qwen	71,1 %	24 février 2026	Auto-déclaré
2	Qwen3.5-122B-A10B	Qwen	66,4 %	24 février 2026	Auto-déclaré
3	Qwen3.5-27B	Qwen	64,2 %	24 février 2026	Auto-déclaré
4	Qwen3 VL 235B A22B Instruct	Qwen	63,7 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 32B Thinking	Qwen	63,7 %	22 septembre 2025	Auto-déclaré
6	Qwen2.5 VL 72B Instruct	Qwen	35,0 %	26 janvier 2025	Auto-déclaré
7	Qwen2.5 VL 7B Instruct	Qwen	25,5 %	26 janvier 2025	Auto-déclaré
8	Qwen2.5 VL 32B Instruct	Qwen	22,0 %	28 février 2025	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 63,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AndroidWorld_SR indique qu’un modèle, intégré à un agent, parvient plus souvent à transformer une instruction en actions correctes sur une interface Android. Le classement de la modelothèque montre un niveau groupé autour d’un score médian de 64 %, avec Qwen3.5-35B-A3B en tête à 71 %, ce qui suggère des écarts réels mais pas un décrochage massif entre les meilleurs systèmes recensés. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation entièrement reproduite par un tiers dans des conditions homogènes. La portée reste aussi circonscrite à des tâches en anglais, sur un ensemble fini d’applications Android et de scénarios programmatiques. La saturation ne semble pas totale, notamment au regard de la référence humaine indiquée à 80 %. Le risque de contamination ou d’optimisation spécifique au benchmark doit être surveillé, comme pour tout jeu public.

Sources des scores : llm-stats.

AndroidWorld_SR

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++