Tau-bench

Tau-bench est un benchmark public conçu par Sierra Research pour évaluer des agents de langage dans des interactions proches de scénarios métier réels. Il met l’accent sur des conversations dynamiques avec un utilisateur simulé, où le modèle doit comprendre la demande, appliquer des…

Tau-bench est un benchmark public conçu par Sierra Research pour évaluer des agents de langage dans des interactions proches de scénarios métier réels. Il met l’accent sur des conversations dynamiques avec un utilisateur simulé, où le modèle doit comprendre la demande, appliquer des règles de domaine et utiliser des outils ou API de manière appropriée.

Le benchmark sert à mesurer la fiabilité opérationnelle des agents, au-delà de la simple réponse textuelle. Il observe leur capacité à mener une tâche jusqu’à son terme, en respectant des politiques spécifiques dans des contextes retail et airline.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSierra Research
Capacités mesuréesagents, généraliste, raisonnement, appels d'outils
ModalitéTexte
Type de questionstâches agentiques interactives avec utilisateur simulé, règles de domaine et appels d’outils/API
Métrique d'évaluationtask success rate / pass^k
AccèsPublic
Languesanglais
Taille du jeuenviron 165 tâches utilisateur, dans les domaines retail et airline
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Step-3.5-FlashStepFun88,2 %2 février 2026Auto-déclaré
2GLM-4.7Zhipu AI87,4 %22 décembre 2025Auto-déclaré
3MiMo-V2-FlashXiaomi80,3 %16 décembre 2025Auto-déclaré
4GLM-4.7-FlashZhipu AI79,5 %19 janvier 2026Auto-déclaré
5MiniMax M2MiniMax77,2 %27 octobre 2025Auto-déclaré
6o3OpenAI63,0 %16 avril 2025Auto-déclaré

Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 79,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau-bench indique qu’un agent parvient souvent à combiner dialogue, raisonnement procédural, appels d’outils et respect de règles métier. La métrique task success rate, avec pass^k, met l’accent sur la réussite effective des tâches et sur la constance du comportement lors de plusieurs essais. L’interprétation reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le classement montre que les meilleurs modèles suivis atteignent déjà un niveau élevé, avec Step-3.5-Flash en tête à 88%, tandis que la médiane de 80% suggère une performance globalement solide parmi les modèles évalués. Les limites tiennent à la portée du benchmark, centré sur l’anglais et sur deux domaines, retail et airline. Une saturation progressive est possible si les modèles convergent sur ces scénarios, et le risque de contamination ne peut pas être totalement exclu pour un benchmark public.


Sources des scores : llm-stats.