Tau2 Retail

Tau2 Retail est un benchmark publié par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client e-commerce. Il s’inscrit dans le domaine retail de τ²-bench et met en scène des dialogues multi-tours où l’agent et l’utilisateur peuvent interagir avec…

Tau2 Retail est un benchmark publié par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client e-commerce. Il s’inscrit dans le domaine retail de τ²-bench et met en scène des dialogues multi-tours où l’agent et l’utilisateur peuvent interagir avec des outils.

Le benchmark mesure la capacité des modèles à conduire une conversation utile, appeler les bons outils, respecter des règles métier et maintenir la cohérence de la tâche dans un environnement dual-control. Il sert ainsi à apprécier des compétences proches d’un usage opérationnel en support client.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSierra Research
Capacités mesuréesagents conversationnels, usage d'outils, respect de règles métier, communication, coordination en dual-control
ModalitéTexte
Type de questionsdialogues multi-tours agent-utilisateur en environnement dual-control avec appels d'outils (domaine retail / service client e-commerce)
Métrique d'évaluationpass^k (proportion de tâches réussies sur k essais), comparaison de l'état final de la base au but annoté
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeudomaine retail de τ²-bench (~115 tâches)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.6Anthropic91,9 %7 avril 2026Auto-déclaré
2Claude Sonnet 4.6Anthropic91,7 %17 février 2026Auto-déclaré
3Claude Opus 4.5Anthropic88,9 %24 novembre 2025Auto-déclaré
4LongCat-Flash-Thinking-2601Meituan88,6 %14 janvier 2026Auto-déclaré
5Claude Haiku 4.5Anthropic83,2 %15 octobre 2025Auto-déclaré
6GPT-5.2OpenAI82,0 %11 décembre 2025Auto-déclaré
7GPT-5OpenAI81,1 %7 août 2025Auto-déclaré
8o3OpenAI80,2 %16 avril 2025Auto-déclaré
9Nova 2 OmniAmazon78,3 %2 décembre 2025Auto-déclaré
10GPT-5.1OpenAI77,9 %13 novembre 2025Auto-déclaré
11GPT-5.1 InstantOpenAI77,9 %12 novembre 2025Auto-déclaré
12Nova 2 ProAmazon77,7 %2 décembre 2025Auto-déclaré
13Nova 2 LiteAmazon76,5 %2 décembre 2025Auto-déclaré
14LongCat-Flash-LiteMeituan73,1 %5 février 2026Auto-déclaré
15Qwen3-235B-A22B-Thinking-2507Qwen71,9 %25 juillet 2025Auto-déclaré
16LongCat-Flash-ThinkingMeituan71,5 %22 septembre 2025Auto-déclaré
17Qwen3-235B-A22B-Instruct-2507Qwen71,3 %22 juillet 2025Auto-déclaré
18LongCat-Flash-ChatMeituan71,3 %29 août 2025Auto-déclaré
19Kimi K2 InstructMoonshot AI70,6 %11 juillet 2025Auto-déclaré
20Kimi K2-Instruct-0905Moonshot AI70,6 %5 septembre 2025Auto-déclaré

Classement établi sur 25 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 76,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau2 Retail indique qu’un modèle parvient, sur plusieurs essais, à mener des tâches retail jusqu’à un état final conforme au but annoté, tout en coordonnant dialogue, outils et contraintes métier. La métrique pass^k favorise les agents capables de réussir de façon répétée, pas seulement de produire une réponse plausible. Le classement disponible dans la base couvre 25 modèles, avec une médiane à 76% et un meilleur résultat de 92% pour Claude Opus 4.6 (Anthropic), ce qui suggère un écart encore visible entre les systèmes les plus performants et le reste du panel. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du domaine, centré sur le retail anglophone, à la taille réduite du jeu, environ 115 tâches, et aux risques classiques de saturation ou de contamination des benchmarks publics.


Sources des scores : llm-stats.