Agents & outils

OSWorld

OSWorld est un benchmark consacré aux agents multimodaux capables d’agir dans de vrais environnements informatiques. Créé par Tianbao Xie et al., au sein de XLang Lab et avec des collaborateurs, il met l’accent sur des tâches interactives où le modèle doit comprendre l’écran, décider…

Son intérêt est d’évaluer des comportements proches d’un usage réel de l’ordinateur, au-delà de la simple réponse textuelle. OSWorld sert ainsi de repère pour comparer la capacité des modèles à enchaîner perception visuelle, raisonnement pratique et contrôle d’interface.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Tianbao Xie et al. (XLang Lab et collaborateurs)
Capacités mesurées	agents, généraliste, multimodal, vision
Modalité	Multimodal
Type de questions	tâches agentiques interactives sur ordinateur réel
Métrique d'évaluation	success rate / taux de réussite des tâches
Accès	Public
Langues	anglais
Taille du jeu	369 tâches
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	78,8 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	76,4 %	24 juin 2026	Auto-déclaré
3	Claude Opus 4.6	Anthropic	72,7 %	7 avril 2026	Auto-déclaré
4	Claude Sonnet 4.6	Anthropic	72,5 %	17 février 2026	Auto-déclaré
5	Qwen3 VL 235B A22B Instruct	Qwen	66,7 %	22 septembre 2025	Auto-déclaré
6	Claude Opus 4.5	Anthropic	66,3 %	24 novembre 2025	Auto-déclaré
7	GLM-5V-Turbo	Zhipu AI	62,3 %	2 avril 2026	Auto-déclaré
8	Claude Sonnet 4.5	Anthropic	61,4 %	29 septembre 2025	Auto-déclaré
9	Claude Haiku 4.5	Anthropic	50,7 %	15 octobre 2025	Auto-déclaré
10	Qwen3 VL 32B Thinking	Qwen	41,0 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 235B A22B Thinking	Qwen	38,1 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 8B Instruct	Qwen	33,9 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 8B Thinking	Qwen	33,9 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 32B Instruct	Qwen	32,6 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 4B Thinking	Qwen	31,4 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 30B A3B Thinking	Qwen	30,6 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 30B A3B Instruct	Qwen	30,3 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 4B Instruct	Qwen	26,2 %	22 septembre 2025	Auto-déclaré
19	Qwen2.5 VL 72B Instruct	Qwen	8,8 %	26 janvier 2025	Auto-déclaré
20	Qwen2.5 VL 32B Instruct	Qwen	5,9 %	28 février 2025	Auto-déclaré

Classement établi sur 20 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 39,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OSWorld indique qu’un agent parvient plus souvent à mener à terme des tâches complètes dans un environnement logiciel réel, ce qui implique une bonne coordination entre compréhension de l’écran, planification, manipulation d’interface et gestion de workflows multi-applications. La métrique retenue, le taux de réussite, rend la lecture directe, mais elle ne détaille pas toujours les causes d’échec ni la qualité des étapes intermédiaires.

La rigueur du benchmark tient à son évaluation fondée sur l’exécution de tâches interactives, dans des environnements de bureau et web couvrant Ubuntu, Windows et macOS. La principale prudence concerne la fiabilité des scores disponibles dans la base, majoritairement auto-déclarés par les éditeurs. Les résultats doivent donc être interprétés comme des indicateurs comparatifs plutôt que comme une mesure entièrement homogène. Le classement montre un écart important entre la médiane de l’ensemble et le meilleur résultat observé, Seed 2.1 Pro à 79%, ce qui suggère une forte différenciation des capacités agentiques. La portée reste limitée à des tâches en anglais et à l’ensemble défini par OSWorld, avec les risques habituels de saturation ou de contamination à mesure que le benchmark devient plus connu.

Sources des scores : llm-stats.

OSWorld

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench