Agents & outils

TAU3-Bench

TAU3-Bench est un benchmark public conçu par Sierra Research pour évaluer des capacités d’agent généraliste dans des scénarios proches du service client. Il met les modèles face à des interactions multi-tours avec un utilisateur simulé, en combinant retrieval, appel d’outils et prise de…

Publié en 2026, il prolonge la lignée tau-bench avec une métrique centrée sur la fiabilité sur plusieurs essais, pass^k. Il ajoute aussi une dimension d’évaluation vocale full-duplex, afin de mieux couvrir les usages conversationnels d’agents capables d’agir, de répondre et de s’adapter.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Sierra Research
Capacités mesurées	Capacités d'agent généraliste : interactions multi-tours avec un utilisateur simulé, retrieval, appel d'outils et prise de décision complexe ; ajoute l'évaluation vocale full-duplex.
Modalité	Texte
Type de questions	Agent généraliste multi-tours / interaction outil-agent-utilisateur (service client)
Métrique d'évaluation	pass^k (fiabilité sur plusieurs essais), lignée tau-bench
Accès	Public
Langues	Anglais
Taille du jeu	5 domaines : mock, airline, retail, telecom, banking_knowledge
Année de publication	2026
Ressources	Site / dépôt officiel

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiMo-V2.5-Pro	Xiaomi	72,9 %	27 avril 2026	Auto-déclaré
2	Qwen3.6 Plus	Qwen	70,7 %	31 mars 2026	Auto-déclaré
3	GLM-5.1	Zhipu AI	70,6 %	7 avril 2026	Auto-déclaré
4	Qwen3.6-35B-A3B	Qwen	67,2 %	16 avril 2026	Auto-déclaré
5	Nemotron 3 Ultra (550B A55B)	NVIDIA	22,6 %	4 juin 2026	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 3 de grands éditeurs. Score médian de l'ensemble : 70,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TAU3-Bench indique une meilleure capacité à maintenir une interaction cohérente sur plusieurs tours, à récupérer l’information pertinente, à utiliser des outils et à prendre des décisions fiables dans des environnements simulés de service client. La métrique pass^k met l’accent sur la régularité plutôt que sur une réussite isolée, ce qui rend le benchmark utile pour apprécier la robustesse opérationnelle d’un agent.

La lecture du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Sur les cinq modèles évalués, le score médian atteint 71 %, tandis que MiMo-V2.5-Pro de Xiaomi se place en tête à 73 %, ce qui suggère un écart limité entre les meilleurs résultats recensés. Les limites habituelles concernent la portée du benchmark, limitée à des domaines définis, le risque de saturation si les modèles convergent vers les mêmes scénarios, et la possibilité de contamination si les tâches ou formats deviennent trop exposés.

Sources des scores : llm-stats.

TAU3-Bench

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench