Tau-bench
Tau-bench est un benchmark public conçu par Sierra Research pour évaluer des agents de langage dans des interactions proches de scénarios métier réels. Il met l’accent sur des conversations dynamiques avec un utilisateur simulé, où le modèle doit comprendre la demande, appliquer des…
Tau-bench est un benchmark public conçu par Sierra Research pour évaluer des agents de langage dans des interactions proches de scénarios métier réels. Il met l’accent sur des conversations dynamiques avec un utilisateur simulé, où le modèle doit comprendre la demande, appliquer des règles de domaine et utiliser des outils ou API de manière appropriée.
Le benchmark sert à mesurer la fiabilité opérationnelle des agents, au-delà de la simple réponse textuelle. Il observe leur capacité à mener une tâche jusqu’à son terme, en respectant des politiques spécifiques dans des contextes retail et airline.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Sierra Research |
| Capacités mesurées | agents, généraliste, raisonnement, appels d'outils |
| Modalité | Texte |
| Type de questions | tâches agentiques interactives avec utilisateur simulé, règles de domaine et appels d’outils/API |
| Métrique d'évaluation | task success rate / pass^k |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 165 tâches utilisateur, dans les domaines retail et airline |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Step-3.5-Flash | StepFun | 88,2 % | 2 février 2026 | Auto-déclaré |
| 2 | GLM-4.7 | Zhipu AI | 87,4 % | 22 décembre 2025 | Auto-déclaré |
| 3 | MiMo-V2-Flash | Xiaomi | 80,3 % | 16 décembre 2025 | Auto-déclaré |
| 4 | GLM-4.7-Flash | Zhipu AI | 79,5 % | 19 janvier 2026 | Auto-déclaré |
| 5 | MiniMax M2 | MiniMax | 77,2 % | 27 octobre 2025 | Auto-déclaré |
| 6 | o3 | OpenAI | 63,0 % | 16 avril 2025 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 79,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Tau-bench indique qu’un agent parvient souvent à combiner dialogue, raisonnement procédural, appels d’outils et respect de règles métier. La métrique task success rate, avec pass^k, met l’accent sur la réussite effective des tâches et sur la constance du comportement lors de plusieurs essais. L’interprétation reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le classement montre que les meilleurs modèles suivis atteignent déjà un niveau élevé, avec Step-3.5-Flash en tête à 88%, tandis que la médiane de 80% suggère une performance globalement solide parmi les modèles évalués. Les limites tiennent à la portée du benchmark, centré sur l’anglais et sur deux domaines, retail et airline. Une saturation progressive est possible si les modèles convergent sur ces scénarios, et le risque de contamination ne peut pas être totalement exclu pour un benchmark public.
Sources des scores : llm-stats.