TAU-bench Airline
TAU-bench Airline est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels dans un domaine de compagnie aérienne. Il fait partie de τ-bench, une suite centrée sur les interactions entre outil, agent et utilisateur dans des scénarios proches de cas métier réels.
TAU-bench Airline est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels dans un domaine de compagnie aérienne. Il fait partie de τ-bench, une suite centrée sur les interactions entre outil, agent et utilisateur dans des scénarios proches de cas métier réels.
Le test mesure la capacité d’un modèle à mener des dialogues dynamiques multi-tours, à utiliser des API via function calling, à respecter des règles métier et à communiquer correctement avec l’utilisateur. Il sert à apprécier la fiabilité opérationnelle des agents, au-delà de la simple réponse textuelle.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Sierra Research |
| Capacités mesurées | agents conversationnels, usage d'outils (function calling), respect de règles/politiques métier, communication avec l'utilisateur |
| Modalité | Texte |
| Type de questions | dialogues dynamiques multi-tours agent-utilisateur avec API/outils et règles métier (domaine compagnie aérienne) |
| Métrique d'évaluation | pass^k (fiabilité sur k essais), comparaison de l'état final de la base au but annoté |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | 50 tâches (domaine airline); 115 tâches pour le retail |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Sonnet 4.5 | Anthropic | 70,0 % | 29 septembre 2025 | Auto-déclaré |
| 2 | GLM-4.5-Air | Zhipu AI | 60,8 % | 28 juillet 2025 | Auto-déclaré |
| 3 | GLM-4.5 | Zhipu AI | 60,4 % | 28 juillet 2025 | Auto-déclaré |
| 4 | Claude Sonnet 4 | Anthropic | 60,0 % | 22 mai 2025 | Auto-déclaré |
| 5 | MiniMax M1 | MiniMax | 60,0 % | 17 juin 2025 | Auto-déclaré |
| 6 | Qwen3-Coder 480B A35B Instruct | Qwen | 60,0 % | 31 janvier 2025 | Auto-déclaré |
| 7 | Claude Opus 4 | Anthropic | 59,6 % | 22 mai 2025 | Auto-déclaré |
| 8 | Claude 3.7 Sonnet | Anthropic | 58,4 % | 24 février 2025 | Auto-déclaré |
| 9 | Claude Opus 4.1 | Anthropic | 56,0 % | 5 août 2025 | Auto-déclaré |
| 10 | GPT-5.4 | OpenAI | 50,0 % | 5 mars 2026 | Auto-déclaré |
| 11 | o1 | OpenAI | 50,0 % | 17 décembre 2024 | Auto-déclaré |
| 12 | GPT-4.1 | OpenAI | 49,4 % | 14 avril 2025 | Auto-déclaré |
| 13 | o4-mini | OpenAI | 49,2 % | 16 avril 2025 | Auto-déclaré |
| 14 | Qwen3-Next-80B-A3B-Thinking | Qwen | 49,0 % | 10 septembre 2025 | Auto-déclaré |
| 15 | Claude 3.5 Sonnet | Anthropic | 46,0 % | 22 octobre 2024 | Auto-déclaré |
| 16 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 46,0 % | 25 juillet 2025 | Auto-déclaré |
| 17 | Qwen3-Next-80B-A3B-Instruct | Qwen | 44,0 % | 10 septembre 2025 | Auto-déclaré |
| 18 | GPT-4o | OpenAI | 42,8 % | 27 mars 2025 | Auto-déclaré |
| 19 | GPT-4.1 mini | OpenAI | 36,0 % | 14 avril 2025 | Auto-déclaré |
| 20 | o3-mini | OpenAI | 32,4 % | 30 janvier 2025 | Auto-déclaré |
Classement établi sur 22 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 49,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TAU-bench Airline indique qu’un agent parvient plus souvent à atteindre l’état final attendu de la base après plusieurs échanges, tout en appliquant les politiques du domaine et en mobilisant les outils disponibles. La métrique pass^k met l’accent sur la fiabilité sur plusieurs essais, ce qui est particulièrement pertinent pour des agents destinés à exécuter des tâches plutôt qu’à seulement produire une réponse.
- Rigueur : l’évaluation repose sur une comparaison de l’état final avec un objectif annoté, mais les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité indépendante.
- Limites : le périmètre reste celui de tâches en anglais dans le domaine airline, avec un jeu de taille limitée. Comme pour tout benchmark public, la saturation progressive et la contamination potentielle doivent être surveillées.
- Classement : l’écart entre le score médian de l’ensemble et le meilleur résultat, obtenu par Claude Sonnet 4.5, suggère que la robustesse des agents outillés reste différenciante.
Sources des scores : llm-stats.