Agents & outils

TAU-bench Retail

TAU-bench Retail est un benchmark conçu par Sierra pour évaluer des agents conversationnels dans des environnements de vente au détail. Il met en scène des échanges multi-tours avec un utilisateur simulé, où le modèle doit comprendre la demande, dialoguer de manière cohérente et…

Le test mesure surtout la capacité d’un agent à combiner conversation, appels d’API et respect de politiques opérationnelles. Il sert ainsi à apprécier des compétences proches d’un déploiement en support client, au-delà de la simple génération de texte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Sierra
Capacités mesurées	communication, raisonnement, appels d'outils
Modalité	Texte
Type de questions	tâches agentiques multi-tours avec appels d’outils et utilisateur simulé
Métrique d'évaluation	success rate
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	environ 115 tâches pour le domaine Retail
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Sonnet 4.5	Anthropic	86,2 %	29 septembre 2025	Auto-déclaré
2	Claude Opus 4.1	Anthropic	82,4 %	5 août 2025	Auto-déclaré
3	Claude Opus 4	Anthropic	81,4 %	22 mai 2025	Auto-déclaré
4	Claude 3.7 Sonnet	Anthropic	81,2 %	24 février 2025	Auto-déclaré
5	Claude Sonnet 4	Anthropic	80,5 %	22 mai 2025	Auto-déclaré
6	GLM-4.5	Zhipu AI	79,7 %	28 juillet 2025	Auto-déclaré
7	GLM-4.5-Air	Zhipu AI	77,9 %	28 juillet 2025	Auto-déclaré
8	Qwen3-Coder 480B A35B Instruct	Qwen	77,5 %	31 janvier 2025	Auto-déclaré
9	o4-mini	OpenAI	71,8 %	16 avril 2025	Auto-déclaré
10	o1	OpenAI	70,8 %	17 décembre 2024	Auto-déclaré
11	Qwen3-Next-80B-A3B-Thinking	Qwen	69,6 %	10 septembre 2025	Auto-déclaré
12	Claude 3.5 Sonnet	Anthropic	69,2 %	22 octobre 2024	Auto-déclaré
13	GPT-5.4	OpenAI	68,4 %	5 mars 2026	Auto-déclaré
14	GPT-4.1	OpenAI	68,0 %	14 avril 2025	Auto-déclaré
15	GPT OSS 120B	OpenAI	67,8 %	5 août 2025	Auto-déclaré
16	MiniMax M1	MiniMax	67,8 %	17 juin 2025	Auto-déclaré
17	Qwen3-235B-A22B-Thinking-2507	Qwen	67,8 %	25 juillet 2025	Auto-déclaré
18	Qwen3-Next-80B-A3B-Instruct	Qwen	60,9 %	10 septembre 2025	Auto-déclaré
19	GPT-4o	OpenAI	60,3 %	27 mars 2025	Auto-déclaré
20	o3-mini	OpenAI	57,6 %	30 janvier 2025	Auto-déclaré

Classement établi sur 24 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 68,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TAU-bench Retail indique qu’un modèle parvient fréquemment à mener une tâche agentique jusqu’à son issue correcte, en tenant compte du contexte conversationnel, des contraintes de politique interne et des réponses d’outils. Le classement met en avant des modèles capables de gérer des situations pratiques comme les annulations de commande, les changements d’adresse ou les vérifications de statut, avec Claude Sonnet 4.5 en tête dans la base.

La lecture des résultats doit rester prudente. La métrique de success rate est lisible et directement liée à l’exécution de tâches, mais les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le domaine couvert reste celui du retail en anglais, avec un jeu d’environ 115 tâches, donc la portée ne résume pas l’ensemble des usages agentiques. Comme pour tout benchmark public, une saturation progressive ou une contamination des jeux d’évaluation peut aussi réduire la valeur discriminante avec le temps.

Sources des scores : llm-stats.

TAU-bench Retail

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench