Agents & outils

Tau-bench

Tau-bench est un benchmark public conçu par Sierra Research pour évaluer des agents de langage dans des interactions proches de scénarios métier réels. Il met l’accent sur des conversations dynamiques avec un utilisateur simulé, où le modèle doit comprendre la demande, appliquer des…

Le benchmark sert à mesurer la fiabilité opérationnelle des agents, au-delà de la simple réponse textuelle. Il observe leur capacité à mener une tâche jusqu’à son terme, en respectant des politiques spécifiques dans des contextes retail et airline.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Sierra Research
Capacités mesurées	agents, généraliste, raisonnement, appels d'outils
Modalité	Texte
Type de questions	tâches agentiques interactives avec utilisateur simulé, règles de domaine et appels d’outils/API
Métrique d'évaluation	task success rate / pass^k
Accès	Public
Langues	anglais
Taille du jeu	environ 165 tâches utilisateur, dans les domaines retail et airline
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Step-3.5-Flash	StepFun	88,2 %	2 février 2026	Auto-déclaré
2	GLM-4.7	Zhipu AI	87,4 %	22 décembre 2025	Auto-déclaré
3	MiMo-V2-Flash	Xiaomi	80,3 %	16 décembre 2025	Auto-déclaré
4	GLM-4.7-Flash	Zhipu AI	79,5 %	19 janvier 2026	Auto-déclaré
5	MiniMax M2	MiniMax	77,2 %	27 octobre 2025	Auto-déclaré
6	o3	OpenAI	63,0 %	16 avril 2025	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 79,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau-bench indique qu’un agent parvient souvent à combiner dialogue, raisonnement procédural, appels d’outils et respect de règles métier. La métrique task success rate, avec pass^k, met l’accent sur la réussite effective des tâches et sur la constance du comportement lors de plusieurs essais. L’interprétation reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le classement montre que les meilleurs modèles suivis atteignent déjà un niveau élevé, avec Step-3.5-Flash en tête à 88%, tandis que la médiane de 80% suggère une performance globalement solide parmi les modèles évalués. Les limites tiennent à la portée du benchmark, centré sur l’anglais et sur deux domaines, retail et airline. Une saturation progressive est possible si les modèles convergent sur ces scénarios, et le risque de contamination ne peut pas être totalement exclu pour un benchmark public.

Sources des scores : llm-stats.

Tau-bench

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench