TAU-bench Retail

TAU-bench Retail est un benchmark conçu par Sierra pour évaluer des agents conversationnels dans des environnements de vente au détail. Il met en scène des échanges multi-tours avec un utilisateur simulé, où le modèle doit comprendre la demande, dialoguer de manière cohérente et…

TAU-bench Retail est un benchmark conçu par Sierra pour évaluer des agents conversationnels dans des environnements de vente au détail. Il met en scène des échanges multi-tours avec un utilisateur simulé, où le modèle doit comprendre la demande, dialoguer de manière cohérente et mobiliser des outils métier adaptés.

Le test mesure surtout la capacité d’un agent à combiner conversation, appels d’API et respect de politiques opérationnelles. Il sert ainsi à apprécier des compétences proches d’un déploiement en support client, au-delà de la simple génération de texte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSierra
Capacités mesuréescommunication, raisonnement, appels d'outils
ModalitéTexte
Type de questionstâches agentiques multi-tours avec appels d’outils et utilisateur simulé
Métrique d'évaluationsuccess rate
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeuenviron 115 tâches pour le domaine Retail
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Sonnet 4.5Anthropic86,2 %29 septembre 2025Auto-déclaré
2Claude Opus 4.1Anthropic82,4 %5 août 2025Auto-déclaré
3Claude Opus 4Anthropic81,4 %22 mai 2025Auto-déclaré
4Claude 3.7 SonnetAnthropic81,2 %24 février 2025Auto-déclaré
5Claude Sonnet 4Anthropic80,5 %22 mai 2025Auto-déclaré
6GLM-4.5Zhipu AI79,7 %28 juillet 2025Auto-déclaré
7GLM-4.5-AirZhipu AI77,9 %28 juillet 2025Auto-déclaré
8Qwen3-Coder 480B A35B InstructQwen77,5 %31 janvier 2025Auto-déclaré
9o4-miniOpenAI71,8 %16 avril 2025Auto-déclaré
10o1OpenAI70,8 %17 décembre 2024Auto-déclaré
11Qwen3-Next-80B-A3B-ThinkingQwen69,6 %10 septembre 2025Auto-déclaré
12Claude 3.5 SonnetAnthropic69,2 %22 octobre 2024Auto-déclaré
13GPT-5.4OpenAI68,4 %5 mars 2026Auto-déclaré
14GPT-4.1OpenAI68,0 %14 avril 2025Auto-déclaré
15GPT OSS 120BOpenAI67,8 %5 août 2025Auto-déclaré
16MiniMax M1MiniMax67,8 %17 juin 2025Auto-déclaré
17Qwen3-235B-A22B-Thinking-2507Qwen67,8 %25 juillet 2025Auto-déclaré
18Qwen3-Next-80B-A3B-InstructQwen60,9 %10 septembre 2025Auto-déclaré
19GPT-4oOpenAI60,3 %27 mars 2025Auto-déclaré
20o3-miniOpenAI57,6 %30 janvier 2025Auto-déclaré

Classement établi sur 24 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 68,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TAU-bench Retail indique qu’un modèle parvient fréquemment à mener une tâche agentique jusqu’à son issue correcte, en tenant compte du contexte conversationnel, des contraintes de politique interne et des réponses d’outils. Le classement met en avant des modèles capables de gérer des situations pratiques comme les annulations de commande, les changements d’adresse ou les vérifications de statut, avec Claude Sonnet 4.5 en tête dans la base.

La lecture des résultats doit rester prudente. La métrique de success rate est lisible et directement liée à l’exécution de tâches, mais les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le domaine couvert reste celui du retail en anglais, avec un jeu d’environ 115 tâches, donc la portée ne résume pas l’ensemble des usages agentiques. Comme pour tout benchmark public, une saturation progressive ou une contamination des jeux d’évaluation peut aussi réduire la valeur discriminante avec le temps.


Sources des scores : llm-stats.