TAU3-Bench

TAU3-Bench est un benchmark public conçu par Sierra Research pour évaluer des capacités d’agent généraliste dans des scénarios proches du service client. Il met les modèles face à des interactions multi-tours avec un utilisateur simulé, en combinant retrieval, appel d’outils et prise de…

TAU3-Bench est un benchmark public conçu par Sierra Research pour évaluer des capacités d’agent généraliste dans des scénarios proches du service client. Il met les modèles face à des interactions multi-tours avec un utilisateur simulé, en combinant retrieval, appel d’outils et prise de décision complexe.

Publié en 2026, il prolonge la lignée tau-bench avec une métrique centrée sur la fiabilité sur plusieurs essais, pass^k. Il ajoute aussi une dimension d’évaluation vocale full-duplex, afin de mieux couvrir les usages conversationnels d’agents capables d’agir, de répondre et de s’adapter.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSierra Research
Capacités mesuréesCapacités d'agent généraliste : interactions multi-tours avec un utilisateur simulé, retrieval, appel d'outils et prise de décision complexe ; ajoute l'évaluation vocale full-duplex.
ModalitéTexte
Type de questionsAgent généraliste multi-tours / interaction outil-agent-utilisateur (service client)
Métrique d'évaluationpass^k (fiabilité sur plusieurs essais), lignée tau-bench
AccèsPublic
LanguesAnglais
Taille du jeu5 domaines : mock, airline, retail, telecom, banking_knowledge
Année de publication2026
RessourcesSite / dépôt officiel

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1MiMo-V2.5-ProXiaomi72,9 %27 avril 2026Auto-déclaré
2Qwen3.6 PlusQwen70,7 %31 mars 2026Auto-déclaré
3GLM-5.1Zhipu AI70,6 %7 avril 2026Auto-déclaré
4Qwen3.6-35B-A3BQwen67,2 %16 avril 2026Auto-déclaré
5Nemotron 3 Ultra (550B A55B)NVIDIA22,6 %4 juin 2026Auto-déclaré

Classement établi sur 5 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 70,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TAU3-Bench indique une meilleure capacité à maintenir une interaction cohérente sur plusieurs tours, à récupérer l’information pertinente, à utiliser des outils et à prendre des décisions fiables dans des environnements simulés de service client. La métrique pass^k met l’accent sur la régularité plutôt que sur une réussite isolée, ce qui rend le benchmark utile pour apprécier la robustesse opérationnelle d’un agent.

La lecture du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Sur les cinq modèles évalués, le score médian atteint 71 %, tandis que MiMo-V2.5-Pro de Xiaomi se place en tête à 73 %, ce qui suggère un écart limité entre les meilleurs résultats recensés. Les limites habituelles concernent la portée du benchmark, limitée à des domaines définis, le risque de saturation si les modèles convergent vers les mêmes scénarios, et la possibilité de contamination si les tâches ou formats deviennent trop exposés.


Sources des scores : llm-stats.