TAU-bench Retail
TAU-bench Retail est un benchmark conçu par Sierra pour évaluer des agents conversationnels dans des environnements de vente au détail. Il met en scène des échanges multi-tours avec un utilisateur simulé, où le modèle doit comprendre la demande, dialoguer de manière cohérente et…
TAU-bench Retail est un benchmark conçu par Sierra pour évaluer des agents conversationnels dans des environnements de vente au détail. Il met en scène des échanges multi-tours avec un utilisateur simulé, où le modèle doit comprendre la demande, dialoguer de manière cohérente et mobiliser des outils métier adaptés.
Le test mesure surtout la capacité d’un agent à combiner conversation, appels d’API et respect de politiques opérationnelles. Il sert ainsi à apprécier des compétences proches d’un déploiement en support client, au-delà de la simple génération de texte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Sierra |
| Capacités mesurées | communication, raisonnement, appels d'outils |
| Modalité | Texte |
| Type de questions | tâches agentiques multi-tours avec appels d’outils et utilisateur simulé |
| Métrique d'évaluation | success rate |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | environ 115 tâches pour le domaine Retail |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Sonnet 4.5 | Anthropic | 86,2 % | 29 septembre 2025 | Auto-déclaré |
| 2 | Claude Opus 4.1 | Anthropic | 82,4 % | 5 août 2025 | Auto-déclaré |
| 3 | Claude Opus 4 | Anthropic | 81,4 % | 22 mai 2025 | Auto-déclaré |
| 4 | Claude 3.7 Sonnet | Anthropic | 81,2 % | 24 février 2025 | Auto-déclaré |
| 5 | Claude Sonnet 4 | Anthropic | 80,5 % | 22 mai 2025 | Auto-déclaré |
| 6 | GLM-4.5 | Zhipu AI | 79,7 % | 28 juillet 2025 | Auto-déclaré |
| 7 | GLM-4.5-Air | Zhipu AI | 77,9 % | 28 juillet 2025 | Auto-déclaré |
| 8 | Qwen3-Coder 480B A35B Instruct | Qwen | 77,5 % | 31 janvier 2025 | Auto-déclaré |
| 9 | o4-mini | OpenAI | 71,8 % | 16 avril 2025 | Auto-déclaré |
| 10 | o1 | OpenAI | 70,8 % | 17 décembre 2024 | Auto-déclaré |
| 11 | Qwen3-Next-80B-A3B-Thinking | Qwen | 69,6 % | 10 septembre 2025 | Auto-déclaré |
| 12 | Claude 3.5 Sonnet | Anthropic | 69,2 % | 22 octobre 2024 | Auto-déclaré |
| 13 | GPT-5.4 | OpenAI | 68,4 % | 5 mars 2026 | Auto-déclaré |
| 14 | GPT-4.1 | OpenAI | 68,0 % | 14 avril 2025 | Auto-déclaré |
| 15 | GPT OSS 120B | OpenAI | 67,8 % | 5 août 2025 | Auto-déclaré |
| 16 | MiniMax M1 | MiniMax | 67,8 % | 17 juin 2025 | Auto-déclaré |
| 17 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 67,8 % | 25 juillet 2025 | Auto-déclaré |
| 18 | Qwen3-Next-80B-A3B-Instruct | Qwen | 60,9 % | 10 septembre 2025 | Auto-déclaré |
| 19 | GPT-4o | OpenAI | 60,3 % | 27 mars 2025 | Auto-déclaré |
| 20 | o3-mini | OpenAI | 57,6 % | 30 janvier 2025 | Auto-déclaré |
Classement établi sur 24 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 68,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TAU-bench Retail indique qu’un modèle parvient fréquemment à mener une tâche agentique jusqu’à son issue correcte, en tenant compte du contexte conversationnel, des contraintes de politique interne et des réponses d’outils. Le classement met en avant des modèles capables de gérer des situations pratiques comme les annulations de commande, les changements d’adresse ou les vérifications de statut, avec Claude Sonnet 4.5 en tête dans la base.
La lecture des résultats doit rester prudente. La métrique de success rate est lisible et directement liée à l’exécution de tâches, mais les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité indépendante. Le domaine couvert reste celui du retail en anglais, avec un jeu d’environ 115 tâches, donc la portée ne résume pas l’ensemble des usages agentiques. Comme pour tout benchmark public, une saturation progressive ou une contamination des jeux d’évaluation peut aussi réduire la valeur discriminante avec le temps.
Sources des scores : llm-stats.