Agents & outils

OSWorld-Verified

OSWorld-Verified est un benchmark conçu par XLang Lab, à l’University of Hong Kong, pour évaluer des agents multimodaux dans de véritables environnements de bureau. Il s’appuie sur des tâches informatiques ouvertes, exécutées dans des applications réelles, avec navigation d’interface,…

Le benchmark mesure la capacité d’un modèle à comprendre une interface graphique, à planifier des actions et à mener un workflow jusqu’à son terme. Son intérêt est de rapprocher l’évaluation des usages concrets d’un système d’exploitation, au-delà des tests textuels ou des questions fermées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	XLang Lab (University of Hong Kong)
Capacités mesurées	Exécution de tâches multi-applications dans un vrai environnement OS (Ubuntu, Windows, macOS) : grounding GUI, workflows réels, configuration et apprentissage interactif.
Modalité	Multimodal
Type de questions	Tâches informatiques ouvertes pour agents multimodaux (navigation GUI, apps réelles, I/O fichiers)
Métrique d'évaluation	Taux de succès basé sur l'exécution (scripts d'évaluation par tâche)
Accès	Public
Licence	Apache-2.0
Langues	anglais (interfaces)
Taille du jeu	369 tâches (OSWorld) ; OSWorld-Verified = sous-ensemble vérifié
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 17)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	85,0 %	9 juin 2026	Auto-déclaré
2	Claude Opus 4.8	Anthropic	83,4 %	28 mai 2026	Auto-déclaré
3	Claude Mythos Preview	Anthropic	79,6 %	—	Auto-déclaré
4	GPT-5.5	OpenAI	78,7 %	23 avril 2026	Auto-déclaré
5	Gemini 3.5 Flash	Google	78,4 %	19 mai 2026	Auto-déclaré
6	Claude Opus 4.7	Anthropic	78,0 %	12 mai 2026	Auto-déclaré
7	GPT-5.4	OpenAI	75,0 %	5 mars 2026	Auto-déclaré
8	Qwen3.7-Plus	Qwen	73,3 %	31 mai 2026	Auto-déclaré
9	Kimi K2.6	Moonshot AI	73,1 %	20 avril 2026	Auto-déclaré
10	GPT-5.4 mini	OpenAI	72,1 %	17 mars 2026	Auto-déclaré
11	MiniMax M3	MiniMax	70,1 %	1 juin 2026	Auto-déclaré
12	GPT-5.3 Codex	OpenAI	64,7 %	5 février 2026	Auto-déclaré
13	Qwen3.6 Plus	Qwen	62,5 %	31 mars 2026	Auto-déclaré
14	Qwen3.5-122B-A10B	Qwen	58,0 %	24 février 2026	Auto-déclaré
15	Qwen3.5-27B	Qwen	56,2 %	24 février 2026	Auto-déclaré
16	Qwen3.5-35B-A3B	Qwen	54,5 %	24 février 2026	Auto-déclaré
17	GPT-5.4 nano	OpenAI	39,0 %	17 mars 2026	Auto-déclaré

Classement établi sur 17 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 73,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OSWorld-Verified indique qu’un agent parvient fréquemment à transformer une consigne en actions correctes dans un environnement logiciel réel. L’évaluation repose sur l’exécution, avec des scripts propres à chaque tâche, ce qui renforce la rigueur par rapport à une notation déclarative ou subjective. En revanche, la lecture du classement doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs.

Le niveau médian de 73 % suggère que les meilleurs systèmes maîtrisent déjà une partie importante des workflows testés, mais sans atteindre une fiabilité complète. La tête du classement, avec Claude Fable 5 à 85 %, montre un avantage net sur ces tâches d’interaction GUI. Les limites tiennent à la portée du sous-ensemble vérifié, à la possibilité de saturation si les modèles progressent sur ce format, et au risque de contamination dès lors que les tâches ou leurs variantes deviennent largement connues.

Sources des scores : llm-stats.

OSWorld-Verified

Carte d'identité

Classement des modèles (top 17)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench