OSWorld-Verified
OSWorld-Verified est un benchmark conçu par XLang Lab, à l’University of Hong Kong, pour évaluer des agents multimodaux dans de véritables environnements de bureau. Il s’appuie sur des tâches informatiques ouvertes, exécutées dans des applications réelles, avec navigation d’interface,…
OSWorld-Verified est un benchmark conçu par XLang Lab, à l’University of Hong Kong, pour évaluer des agents multimodaux dans de véritables environnements de bureau. Il s’appuie sur des tâches informatiques ouvertes, exécutées dans des applications réelles, avec navigation d’interface, manipulation de fichiers et enchaînements multi-applications.
Le benchmark mesure la capacité d’un modèle à comprendre une interface graphique, à planifier des actions et à mener un workflow jusqu’à son terme. Son intérêt est de rapprocher l’évaluation des usages concrets d’un système d’exploitation, au-delà des tests textuels ou des questions fermées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | XLang Lab (University of Hong Kong) |
| Capacités mesurées | Exécution de tâches multi-applications dans un vrai environnement OS (Ubuntu, Windows, macOS) : grounding GUI, workflows réels, configuration et apprentissage interactif. |
| Modalité | Multimodal |
| Type de questions | Tâches informatiques ouvertes pour agents multimodaux (navigation GUI, apps réelles, I/O fichiers) |
| Métrique d'évaluation | Taux de succès basé sur l'exécution (scripts d'évaluation par tâche) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais (interfaces) |
| Taille du jeu | 369 tâches (OSWorld) ; OSWorld-Verified = sous-ensemble vérifié |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 17)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 85,0 % | 9 juin 2026 | Auto-déclaré |
| 2 | Claude Opus 4.8 | Anthropic | 83,4 % | 28 mai 2026 | Auto-déclaré |
| 3 | Claude Mythos Preview | Anthropic | 79,6 % | — | Auto-déclaré |
| 4 | GPT-5.5 | OpenAI | 78,7 % | 23 avril 2026 | Auto-déclaré |
| 5 | Gemini 3.5 Flash | 78,4 % | 19 mai 2026 | Auto-déclaré | |
| 6 | Claude Opus 4.7 | Anthropic | 78,0 % | 12 mai 2026 | Auto-déclaré |
| 7 | GPT-5.4 | OpenAI | 75,0 % | 5 mars 2026 | Auto-déclaré |
| 8 | Qwen3.7-Plus | Qwen | 73,3 % | 31 mai 2026 | Auto-déclaré |
| 9 | Kimi K2.6 | Moonshot AI | 73,1 % | 20 avril 2026 | Auto-déclaré |
| 10 | GPT-5.4 mini | OpenAI | 72,1 % | 17 mars 2026 | Auto-déclaré |
| 11 | MiniMax M3 | MiniMax | 70,1 % | 1 juin 2026 | Auto-déclaré |
| 12 | GPT-5.3 Codex | OpenAI | 64,7 % | 5 février 2026 | Auto-déclaré |
| 13 | Qwen3.6 Plus | Qwen | 62,5 % | 31 mars 2026 | Auto-déclaré |
| 14 | Qwen3.5-122B-A10B | Qwen | 58,0 % | 24 février 2026 | Auto-déclaré |
| 15 | Qwen3.5-27B | Qwen | 56,2 % | 24 février 2026 | Auto-déclaré |
| 16 | Qwen3.5-35B-A3B | Qwen | 54,5 % | 24 février 2026 | Auto-déclaré |
| 17 | GPT-5.4 nano | OpenAI | 39,0 % | 17 mars 2026 | Auto-déclaré |
Classement établi sur 17 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 73,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OSWorld-Verified indique qu’un agent parvient fréquemment à transformer une consigne en actions correctes dans un environnement logiciel réel. L’évaluation repose sur l’exécution, avec des scripts propres à chaque tâche, ce qui renforce la rigueur par rapport à une notation déclarative ou subjective. En revanche, la lecture du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs.
Le niveau médian de 73 % suggère que les meilleurs systèmes maîtrisent déjà une partie importante des workflows testés, mais sans atteindre une fiabilité complète. La tête du classement, avec Claude Fable 5 à 85 %, montre un avantage net sur ces tâches d’interaction GUI. Les limites tiennent à la portée du sous-ensemble vérifié, à la possibilité de saturation si les modèles progressent sur ce format, et au risque de contamination dès lors que les tâches ou leurs variantes deviennent largement connues.
Sources des scores : llm-stats.