Tau2 Retail
Tau2 Retail est un benchmark publié par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client e-commerce. Il s’inscrit dans le domaine retail de τ²-bench et met en scène des dialogues multi-tours où l’agent et l’utilisateur peuvent interagir avec…
Tau2 Retail est un benchmark publié par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client e-commerce. Il s’inscrit dans le domaine retail de τ²-bench et met en scène des dialogues multi-tours où l’agent et l’utilisateur peuvent interagir avec des outils.
Le benchmark mesure la capacité des modèles à conduire une conversation utile, appeler les bons outils, respecter des règles métier et maintenir la cohérence de la tâche dans un environnement dual-control. Il sert ainsi à apprécier des compétences proches d’un usage opérationnel en support client.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Sierra Research |
| Capacités mesurées | agents conversationnels, usage d'outils, respect de règles métier, communication, coordination en dual-control |
| Modalité | Texte |
| Type de questions | dialogues multi-tours agent-utilisateur en environnement dual-control avec appels d'outils (domaine retail / service client e-commerce) |
| Métrique d'évaluation | pass^k (proportion de tâches réussies sur k essais), comparaison de l'état final de la base au but annoté |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | domaine retail de τ²-bench (~115 tâches) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Anthropic | 91,9 % | 7 avril 2026 | Auto-déclaré |
| 2 | Claude Sonnet 4.6 | Anthropic | 91,7 % | 17 février 2026 | Auto-déclaré |
| 3 | Claude Opus 4.5 | Anthropic | 88,9 % | 24 novembre 2025 | Auto-déclaré |
| 4 | LongCat-Flash-Thinking-2601 | Meituan | 88,6 % | 14 janvier 2026 | Auto-déclaré |
| 5 | Claude Haiku 4.5 | Anthropic | 83,2 % | 15 octobre 2025 | Auto-déclaré |
| 6 | GPT-5.2 | OpenAI | 82,0 % | 11 décembre 2025 | Auto-déclaré |
| 7 | GPT-5 | OpenAI | 81,1 % | 7 août 2025 | Auto-déclaré |
| 8 | o3 | OpenAI | 80,2 % | 16 avril 2025 | Auto-déclaré |
| 9 | Nova 2 Omni | Amazon | 78,3 % | 2 décembre 2025 | Auto-déclaré |
| 10 | GPT-5.1 | OpenAI | 77,9 % | 13 novembre 2025 | Auto-déclaré |
| 11 | GPT-5.1 Instant | OpenAI | 77,9 % | 12 novembre 2025 | Auto-déclaré |
| 12 | Nova 2 Pro | Amazon | 77,7 % | 2 décembre 2025 | Auto-déclaré |
| 13 | Nova 2 Lite | Amazon | 76,5 % | 2 décembre 2025 | Auto-déclaré |
| 14 | LongCat-Flash-Lite | Meituan | 73,1 % | 5 février 2026 | Auto-déclaré |
| 15 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 71,9 % | 25 juillet 2025 | Auto-déclaré |
| 16 | LongCat-Flash-Thinking | Meituan | 71,5 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 71,3 % | 22 juillet 2025 | Auto-déclaré |
| 18 | LongCat-Flash-Chat | Meituan | 71,3 % | 29 août 2025 | Auto-déclaré |
| 19 | Kimi K2 Instruct | Moonshot AI | 70,6 % | 11 juillet 2025 | Auto-déclaré |
| 20 | Kimi K2-Instruct-0905 | Moonshot AI | 70,6 % | 5 septembre 2025 | Auto-déclaré |
Classement établi sur 25 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 76,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Tau2 Retail indique qu’un modèle parvient, sur plusieurs essais, à mener des tâches retail jusqu’à un état final conforme au but annoté, tout en coordonnant dialogue, outils et contraintes métier. La métrique pass^k favorise les agents capables de réussir de façon répétée, pas seulement de produire une réponse plausible. Le classement disponible dans la base couvre 25 modèles, avec une médiane à 76% et un meilleur résultat de 92% pour Claude Opus 4.6 (Anthropic), ce qui suggère un écart encore visible entre les systèmes les plus performants et le reste du panel. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du domaine, centré sur le retail anglophone, à la taille réduite du jeu, environ 115 tâches, et aux risques classiques de saturation ou de contamination des benchmarks publics.
Sources des scores : llm-stats.