TAU-bench Airline

TAU-bench Airline est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels dans un domaine de compagnie aérienne. Il fait partie de τ-bench, une suite centrée sur les interactions entre outil, agent et utilisateur dans des scénarios proches de cas métier réels.

TAU-bench Airline est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels dans un domaine de compagnie aérienne. Il fait partie de τ-bench, une suite centrée sur les interactions entre outil, agent et utilisateur dans des scénarios proches de cas métier réels.

Le test mesure la capacité d’un modèle à mener des dialogues dynamiques multi-tours, à utiliser des API via function calling, à respecter des règles métier et à communiquer correctement avec l’utilisateur. Il sert à apprécier la fiabilité opérationnelle des agents, au-delà de la simple réponse textuelle.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSierra Research
Capacités mesuréesagents conversationnels, usage d'outils (function calling), respect de règles/politiques métier, communication avec l'utilisateur
ModalitéTexte
Type de questionsdialogues dynamiques multi-tours agent-utilisateur avec API/outils et règles métier (domaine compagnie aérienne)
Métrique d'évaluationpass^k (fiabilité sur k essais), comparaison de l'état final de la base au but annoté
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeu50 tâches (domaine airline); 115 tâches pour le retail
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Sonnet 4.5Anthropic70,0 %29 septembre 2025Auto-déclaré
2GLM-4.5-AirZhipu AI60,8 %28 juillet 2025Auto-déclaré
3GLM-4.5Zhipu AI60,4 %28 juillet 2025Auto-déclaré
4Claude Sonnet 4Anthropic60,0 %22 mai 2025Auto-déclaré
5MiniMax M1MiniMax60,0 %17 juin 2025Auto-déclaré
6Qwen3-Coder 480B A35B InstructQwen60,0 %31 janvier 2025Auto-déclaré
7Claude Opus 4Anthropic59,6 %22 mai 2025Auto-déclaré
8Claude 3.7 SonnetAnthropic58,4 %24 février 2025Auto-déclaré
9Claude Opus 4.1Anthropic56,0 %5 août 2025Auto-déclaré
10GPT-5.4OpenAI50,0 %5 mars 2026Auto-déclaré
11o1OpenAI50,0 %17 décembre 2024Auto-déclaré
12GPT-4.1OpenAI49,4 %14 avril 2025Auto-déclaré
13o4-miniOpenAI49,2 %16 avril 2025Auto-déclaré
14Qwen3-Next-80B-A3B-ThinkingQwen49,0 %10 septembre 2025Auto-déclaré
15Claude 3.5 SonnetAnthropic46,0 %22 octobre 2024Auto-déclaré
16Qwen3-235B-A22B-Thinking-2507Qwen46,0 %25 juillet 2025Auto-déclaré
17Qwen3-Next-80B-A3B-InstructQwen44,0 %10 septembre 2025Auto-déclaré
18GPT-4oOpenAI42,8 %27 mars 2025Auto-déclaré
19GPT-4.1 miniOpenAI36,0 %14 avril 2025Auto-déclaré
20o3-miniOpenAI32,4 %30 janvier 2025Auto-déclaré

Classement établi sur 22 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 49,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TAU-bench Airline indique qu’un agent parvient plus souvent à atteindre l’état final attendu de la base après plusieurs échanges, tout en appliquant les politiques du domaine et en mobilisant les outils disponibles. La métrique pass^k met l’accent sur la fiabilité sur plusieurs essais, ce qui est particulièrement pertinent pour des agents destinés à exécuter des tâches plutôt qu’à seulement produire une réponse.

  • Rigueur : l’évaluation repose sur une comparaison de l’état final avec un objectif annoté, mais les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité indépendante.
  • Limites : le périmètre reste celui de tâches en anglais dans le domaine airline, avec un jeu de taille limitée. Comme pour tout benchmark public, la saturation progressive et la contamination potentielle doivent être surveillées.
  • Classement : l’écart entre le score médian de l’ensemble et le meilleur résultat, obtenu par Claude Sonnet 4.5, suggère que la robustesse des agents outillés reste différenciante.

Sources des scores : llm-stats.