TAU3-Bench
TAU3-Bench est un benchmark public conçu par Sierra Research pour évaluer des capacités d’agent généraliste dans des scénarios proches du service client. Il met les modèles face à des interactions multi-tours avec un utilisateur simulé, en combinant retrieval, appel d’outils et prise de…
TAU3-Bench est un benchmark public conçu par Sierra Research pour évaluer des capacités d’agent généraliste dans des scénarios proches du service client. Il met les modèles face à des interactions multi-tours avec un utilisateur simulé, en combinant retrieval, appel d’outils et prise de décision complexe.
Publié en 2026, il prolonge la lignée tau-bench avec une métrique centrée sur la fiabilité sur plusieurs essais, pass^k. Il ajoute aussi une dimension d’évaluation vocale full-duplex, afin de mieux couvrir les usages conversationnels d’agents capables d’agir, de répondre et de s’adapter.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Sierra Research |
| Capacités mesurées | Capacités d'agent généraliste : interactions multi-tours avec un utilisateur simulé, retrieval, appel d'outils et prise de décision complexe ; ajoute l'évaluation vocale full-duplex. |
| Modalité | Texte |
| Type de questions | Agent généraliste multi-tours / interaction outil-agent-utilisateur (service client) |
| Métrique d'évaluation | pass^k (fiabilité sur plusieurs essais), lignée tau-bench |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 5 domaines : mock, airline, retail, telecom, banking_knowledge |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiMo-V2.5-Pro | Xiaomi | 72,9 % | 27 avril 2026 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 70,7 % | 31 mars 2026 | Auto-déclaré |
| 3 | GLM-5.1 | Zhipu AI | 70,6 % | 7 avril 2026 | Auto-déclaré |
| 4 | Qwen3.6-35B-A3B | Qwen | 67,2 % | 16 avril 2026 | Auto-déclaré |
| 5 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 22,6 % | 4 juin 2026 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 70,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TAU3-Bench indique une meilleure capacité à maintenir une interaction cohérente sur plusieurs tours, à récupérer l’information pertinente, à utiliser des outils et à prendre des décisions fiables dans des environnements simulés de service client. La métrique pass^k met l’accent sur la régularité plutôt que sur une réussite isolée, ce qui rend le benchmark utile pour apprécier la robustesse opérationnelle d’un agent.
La lecture du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Sur les cinq modèles évalués, le score médian atteint 71 %, tandis que MiMo-V2.5-Pro de Xiaomi se place en tête à 73 %, ce qui suggère un écart limité entre les meilleurs résultats recensés. Les limites habituelles concernent la portée du benchmark, limitée à des domaines définis, le risque de saturation si les modèles convergent vers les mêmes scénarios, et la possibilité de contamination si les tâches ou formats deviennent trop exposés.
Sources des scores : llm-stats.