OSWorld

OSWorld est un benchmark consacré aux agents multimodaux capables d’agir dans de vrais environnements informatiques. Créé par Tianbao Xie et al., au sein de XLang Lab et avec des collaborateurs, il met l’accent sur des tâches interactives où le modèle doit comprendre l’écran, décider…

OSWorld est un benchmark consacré aux agents multimodaux capables d’agir dans de vrais environnements informatiques. Créé par Tianbao Xie et al., au sein de XLang Lab et avec des collaborateurs, il met l’accent sur des tâches interactives où le modèle doit comprendre l’écran, décider d’un plan d’action et exécuter des opérations dans des applications web et desktop.

Son intérêt est d’évaluer des comportements proches d’un usage réel de l’ordinateur, au-delà de la simple réponse textuelle. OSWorld sert ainsi de repère pour comparer la capacité des modèles à enchaîner perception visuelle, raisonnement pratique et contrôle d’interface.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkTianbao Xie et al. (XLang Lab et collaborateurs)
Capacités mesuréesagents, généraliste, multimodal, vision
ModalitéMultimodal
Type de questionstâches agentiques interactives sur ordinateur réel
Métrique d'évaluationsuccess rate / taux de réussite des tâches
AccèsPublic
Languesanglais
Taille du jeu369 tâches
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance78,8 %24 juin 2026Auto-déclaré
2Seed 2.1 Turbobytedance76,4 %24 juin 2026Auto-déclaré
3Claude Opus 4.6Anthropic72,7 %7 avril 2026Auto-déclaré
4Claude Sonnet 4.6Anthropic72,5 %17 février 2026Auto-déclaré
5Qwen3 VL 235B A22B InstructQwen66,7 %22 septembre 2025Auto-déclaré
6Claude Opus 4.5Anthropic66,3 %24 novembre 2025Auto-déclaré
7GLM-5V-TurboZhipu AI62,3 %2 avril 2026Auto-déclaré
8Claude Sonnet 4.5Anthropic61,4 %29 septembre 2025Auto-déclaré
9Claude Haiku 4.5Anthropic50,7 %15 octobre 2025Auto-déclaré
10Qwen3 VL 32B ThinkingQwen41,0 %22 septembre 2025Auto-déclaré
11Qwen3 VL 235B A22B ThinkingQwen38,1 %22 septembre 2025Auto-déclaré
12Qwen3 VL 8B InstructQwen33,9 %22 septembre 2025Auto-déclaré
13Qwen3 VL 8B ThinkingQwen33,9 %22 septembre 2025Auto-déclaré
14Qwen3 VL 32B InstructQwen32,6 %22 septembre 2025Auto-déclaré
15Qwen3 VL 4B ThinkingQwen31,4 %22 septembre 2025Auto-déclaré
16Qwen3 VL 30B A3B ThinkingQwen30,6 %22 septembre 2025Auto-déclaré
17Qwen3 VL 30B A3B InstructQwen30,3 %22 septembre 2025Auto-déclaré
18Qwen3 VL 4B InstructQwen26,2 %22 septembre 2025Auto-déclaré
19Qwen2.5 VL 72B InstructQwen8,8 %26 janvier 2025Auto-déclaré
20Qwen2.5 VL 32B InstructQwen5,9 %28 février 2025Auto-déclaré

Classement établi sur 20 modèles évalués, dont 17 de grands éditeurs. Score médian de l'ensemble : 39,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OSWorld indique qu’un agent parvient plus souvent à mener à terme des tâches complètes dans un environnement logiciel réel, ce qui implique une bonne coordination entre compréhension de l’écran, planification, manipulation d’interface et gestion de workflows multi-applications. La métrique retenue, le taux de réussite, rend la lecture directe, mais elle ne détaille pas toujours les causes d’échec ni la qualité des étapes intermédiaires.

La rigueur du benchmark tient à son évaluation fondée sur l’exécution de tâches interactives, dans des environnements de bureau et web couvrant Ubuntu, Windows et macOS. La principale prudence concerne la fiabilité des scores disponibles dans la base, majoritairement auto-déclarés par les éditeurs. Les résultats doivent donc être interprétés comme des indicateurs comparatifs plutôt que comme une mesure entièrement homogène. Le classement montre un écart important entre la médiane de l’ensemble et le meilleur résultat observé, Seed 2.1 Pro à 79%, ce qui suggère une forte différenciation des capacités agentiques. La portée reste limitée à des tâches en anglais et à l’ensemble défini par OSWorld, avec les risques habituels de saturation ou de contamination à mesure que le benchmark devient plus connu.


Sources des scores : llm-stats.