OSWorld
OSWorld est un benchmark consacré aux agents multimodaux capables d’agir dans de vrais environnements informatiques. Créé par Tianbao Xie et al., au sein de XLang Lab et avec des collaborateurs, il met l’accent sur des tâches interactives où le modèle doit comprendre l’écran, décider…
OSWorld est un benchmark consacré aux agents multimodaux capables d’agir dans de vrais environnements informatiques. Créé par Tianbao Xie et al., au sein de XLang Lab et avec des collaborateurs, il met l’accent sur des tâches interactives où le modèle doit comprendre l’écran, décider d’un plan d’action et exécuter des opérations dans des applications web et desktop.
Son intérêt est d’évaluer des comportements proches d’un usage réel de l’ordinateur, au-delà de la simple réponse textuelle. OSWorld sert ainsi de repère pour comparer la capacité des modèles à enchaîner perception visuelle, raisonnement pratique et contrôle d’interface.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Tianbao Xie et al. (XLang Lab et collaborateurs) |
| Capacités mesurées | agents, généraliste, multimodal, vision |
| Modalité | Multimodal |
| Type de questions | tâches agentiques interactives sur ordinateur réel |
| Métrique d'évaluation | success rate / taux de réussite des tâches |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 369 tâches |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 78,8 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 76,4 % | 24 juin 2026 | Auto-déclaré |
| 3 | Claude Opus 4.6 | Anthropic | 72,7 % | 7 avril 2026 | Auto-déclaré |
| 4 | Claude Sonnet 4.6 | Anthropic | 72,5 % | 17 février 2026 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Instruct | Qwen | 66,7 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Claude Opus 4.5 | Anthropic | 66,3 % | 24 novembre 2025 | Auto-déclaré |
| 7 | GLM-5V-Turbo | Zhipu AI | 62,3 % | 2 avril 2026 | Auto-déclaré |
| 8 | Claude Sonnet 4.5 | Anthropic | 61,4 % | 29 septembre 2025 | Auto-déclaré |
| 9 | Claude Haiku 4.5 | Anthropic | 50,7 % | 15 octobre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 32B Thinking | Qwen | 41,0 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 235B A22B Thinking | Qwen | 38,1 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 8B Instruct | Qwen | 33,9 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 8B Thinking | Qwen | 33,9 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 32B Instruct | Qwen | 32,6 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 4B Thinking | Qwen | 31,4 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 30B A3B Thinking | Qwen | 30,6 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 30B A3B Instruct | Qwen | 30,3 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 4B Instruct | Qwen | 26,2 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen2.5 VL 72B Instruct | Qwen | 8,8 % | 26 janvier 2025 | Auto-déclaré |
| 20 | Qwen2.5 VL 32B Instruct | Qwen | 5,9 % | 28 février 2025 | Auto-déclaré |
Classement établi sur 20 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 39,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OSWorld indique qu’un agent parvient plus souvent à mener à terme des tâches complètes dans un environnement logiciel réel, ce qui implique une bonne coordination entre compréhension de l’écran, planification, manipulation d’interface et gestion de workflows multi-applications. La métrique retenue, le taux de réussite, rend la lecture directe, mais elle ne détaille pas toujours les causes d’échec ni la qualité des étapes intermédiaires.
La rigueur du benchmark tient à son évaluation fondée sur l’exécution de tâches interactives, dans des environnements de bureau et web couvrant Ubuntu, Windows et macOS. La principale prudence concerne la fiabilité des scores disponibles dans la base, majoritairement auto-déclarés par les éditeurs. Les résultats doivent donc être interprétés comme des indicateurs comparatifs plutôt que comme une mesure entièrement homogène. Le classement montre un écart important entre la médiane de l’ensemble et le meilleur résultat observé, Seed 2.1 Pro à 79%, ce qui suggère une forte différenciation des capacités agentiques. La portée reste limitée à des tâches en anglais et à l’ensemble défini par OSWorld, avec les risques habituels de saturation ou de contamination à mesure que le benchmark devient plus connu.
Sources des scores : llm-stats.