Agents & outils

Tau2 Retail

Tau2 Retail est un benchmark publié par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client e-commerce. Il s’inscrit dans le domaine retail de τ²-bench et met en scène des dialogues multi-tours où l’agent et l’utilisateur peuvent interagir avec…

Le benchmark mesure la capacité des modèles à conduire une conversation utile, appeler les bons outils, respecter des règles métier et maintenir la cohérence de la tâche dans un environnement dual-control. Il sert ainsi à apprécier des compétences proches d’un usage opérationnel en support client.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Sierra Research
Capacités mesurées	agents conversationnels, usage d'outils, respect de règles métier, communication, coordination en dual-control
Modalité	Texte
Type de questions	dialogues multi-tours agent-utilisateur en environnement dual-control avec appels d'outils (domaine retail / service client e-commerce)
Métrique d'évaluation	pass^k (proportion de tâches réussies sur k essais), comparaison de l'état final de la base au but annoté
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	domaine retail de τ²-bench (~115 tâches)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.6	Anthropic	91,9 %	7 avril 2026	Auto-déclaré
2	Claude Sonnet 4.6	Anthropic	91,7 %	17 février 2026	Auto-déclaré
3	Claude Opus 4.5	Anthropic	88,9 %	24 novembre 2025	Auto-déclaré
4	LongCat-Flash-Thinking-2601	Meituan	88,6 %	14 janvier 2026	Auto-déclaré
5	Claude Haiku 4.5	Anthropic	83,2 %	15 octobre 2025	Auto-déclaré
6	GPT-5.2	OpenAI	82,0 %	11 décembre 2025	Auto-déclaré
7	GPT-5	OpenAI	81,1 %	7 août 2025	Auto-déclaré
8	o3	OpenAI	80,2 %	16 avril 2025	Auto-déclaré
9	Nova 2 Omni	Amazon	78,3 %	2 décembre 2025	Auto-déclaré
10	GPT-5.1	OpenAI	77,9 %	13 novembre 2025	Auto-déclaré
11	GPT-5.1 Instant	OpenAI	77,9 %	12 novembre 2025	Auto-déclaré
12	Nova 2 Pro	Amazon	77,7 %	2 décembre 2025	Auto-déclaré
13	Nova 2 Lite	Amazon	76,5 %	2 décembre 2025	Auto-déclaré
14	LongCat-Flash-Lite	Meituan	73,1 %	5 février 2026	Auto-déclaré
15	Qwen3-235B-A22B-Thinking-2507	Qwen	71,9 %	25 juillet 2025	Auto-déclaré
16	LongCat-Flash-Thinking	Meituan	71,5 %	22 septembre 2025	Auto-déclaré
17	Qwen3-235B-A22B-Instruct-2507	Qwen	71,3 %	22 juillet 2025	Auto-déclaré
18	LongCat-Flash-Chat	Meituan	71,3 %	29 août 2025	Auto-déclaré
19	Kimi K2 Instruct	Moonshot AI	70,6 %	11 juillet 2025	Auto-déclaré
20	Kimi K2-Instruct-0905	Moonshot AI	70,6 %	5 septembre 2025	Auto-déclaré

Classement établi sur 25 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 76,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau2 Retail indique qu’un modèle parvient, sur plusieurs essais, à mener des tâches retail jusqu’à un état final conforme au but annoté, tout en coordonnant dialogue, outils et contraintes métier. La métrique pass^k favorise les agents capables de réussir de façon répétée, pas seulement de produire une réponse plausible. Le classement disponible dans la base couvre 25 modèles, avec une médiane à 76% et un meilleur résultat de 92% pour Claude Opus 4.6 (Anthropic), ce qui suggère un écart encore visible entre les systèmes les plus performants et le reste du panel. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites tiennent aussi à la portée du domaine, centré sur le retail anglophone, à la taille réduite du jeu, environ 115 tâches, et aux risques classiques de saturation ou de contamination des benchmarks publics.

Sources des scores : llm-stats.

Tau2 Retail

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench