OSWorld-Verified

OSWorld-Verified est un benchmark conçu par XLang Lab, à l’University of Hong Kong, pour évaluer des agents multimodaux dans de véritables environnements de bureau. Il s’appuie sur des tâches informatiques ouvertes, exécutées dans des applications réelles, avec navigation d’interface,…

OSWorld-Verified est un benchmark conçu par XLang Lab, à l’University of Hong Kong, pour évaluer des agents multimodaux dans de véritables environnements de bureau. Il s’appuie sur des tâches informatiques ouvertes, exécutées dans des applications réelles, avec navigation d’interface, manipulation de fichiers et enchaînements multi-applications.

Le benchmark mesure la capacité d’un modèle à comprendre une interface graphique, à planifier des actions et à mener un workflow jusqu’à son terme. Son intérêt est de rapprocher l’évaluation des usages concrets d’un système d’exploitation, au-delà des tests textuels ou des questions fermées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkXLang Lab (University of Hong Kong)
Capacités mesuréesExécution de tâches multi-applications dans un vrai environnement OS (Ubuntu, Windows, macOS) : grounding GUI, workflows réels, configuration et apprentissage interactif.
ModalitéMultimodal
Type de questionsTâches informatiques ouvertes pour agents multimodaux (navigation GUI, apps réelles, I/O fichiers)
Métrique d'évaluationTaux de succès basé sur l'exécution (scripts d'évaluation par tâche)
AccèsPublic
LicenceApache-2.0
Languesanglais (interfaces)
Taille du jeu369 tâches (OSWorld) ; OSWorld-Verified = sous-ensemble vérifié
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 17)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic85,0 %9 juin 2026Auto-déclaré
2Claude Opus 4.8Anthropic83,4 %28 mai 2026Auto-déclaré
3Claude Mythos PreviewAnthropic79,6 %Auto-déclaré
4GPT-5.5OpenAI78,7 %23 avril 2026Auto-déclaré
5Gemini 3.5 FlashGoogle78,4 %19 mai 2026Auto-déclaré
6Claude Opus 4.7Anthropic78,0 %12 mai 2026Auto-déclaré
7GPT-5.4OpenAI75,0 %5 mars 2026Auto-déclaré
8Qwen3.7-PlusQwen73,3 %31 mai 2026Auto-déclaré
9Kimi K2.6Moonshot AI73,1 %20 avril 2026Auto-déclaré
10GPT-5.4 miniOpenAI72,1 %17 mars 2026Auto-déclaré
11MiniMax M3MiniMax70,1 %1 juin 2026Auto-déclaré
12GPT-5.3 CodexOpenAI64,7 %5 février 2026Auto-déclaré
13Qwen3.6 PlusQwen62,5 %31 mars 2026Auto-déclaré
14Qwen3.5-122B-A10BQwen58,0 %24 février 2026Auto-déclaré
15Qwen3.5-27BQwen56,2 %24 février 2026Auto-déclaré
16Qwen3.5-35B-A3BQwen54,5 %24 février 2026Auto-déclaré
17GPT-5.4 nanoOpenAI39,0 %17 mars 2026Auto-déclaré

Classement établi sur 17 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 73,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OSWorld-Verified indique qu’un agent parvient fréquemment à transformer une consigne en actions correctes dans un environnement logiciel réel. L’évaluation repose sur l’exécution, avec des scripts propres à chaque tâche, ce qui renforce la rigueur par rapport à une notation déclarative ou subjective. En revanche, la lecture du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs.

Le niveau médian de 73 % suggère que les meilleurs systèmes maîtrisent déjà une partie importante des workflows testés, mais sans atteindre une fiabilité complète. La tête du classement, avec Claude Fable 5 à 85 %, montre un avantage net sur ces tâches d’interaction GUI. Les limites tiennent à la portée du sous-ensemble vérifié, à la possibilité de saturation si les modèles progressent sur ce format, et au risque de contamination dès lors que les tâches ou leurs variantes deviennent largement connues.


Sources des scores : llm-stats.