Agents & outils

TAU-bench Airline

TAU-bench Airline est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels dans un domaine de compagnie aérienne. Il fait partie de τ-bench, une suite centrée sur les interactions entre outil, agent et utilisateur dans des scénarios proches de cas métier réels.

Le test mesure la capacité d’un modèle à mener des dialogues dynamiques multi-tours, à utiliser des API via function calling, à respecter des règles métier et à communiquer correctement avec l’utilisateur. Il sert à apprécier la fiabilité opérationnelle des agents, au-delà de la simple réponse textuelle.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Sierra Research
Capacités mesurées	agents conversationnels, usage d'outils (function calling), respect de règles/politiques métier, communication avec l'utilisateur
Modalité	Texte
Type de questions	dialogues dynamiques multi-tours agent-utilisateur avec API/outils et règles métier (domaine compagnie aérienne)
Métrique d'évaluation	pass^k (fiabilité sur k essais), comparaison de l'état final de la base au but annoté
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	50 tâches (domaine airline); 115 tâches pour le retail
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Sonnet 4.5	Anthropic	70,0 %	29 septembre 2025	Auto-déclaré
2	GLM-4.5-Air	Zhipu AI	60,8 %	28 juillet 2025	Auto-déclaré
3	GLM-4.5	Zhipu AI	60,4 %	28 juillet 2025	Auto-déclaré
4	Claude Sonnet 4	Anthropic	60,0 %	22 mai 2025	Auto-déclaré
5	MiniMax M1	MiniMax	60,0 %	17 juin 2025	Auto-déclaré
6	Qwen3-Coder 480B A35B Instruct	Qwen	60,0 %	31 janvier 2025	Auto-déclaré
7	Claude Opus 4	Anthropic	59,6 %	22 mai 2025	Auto-déclaré
8	Claude 3.7 Sonnet	Anthropic	58,4 %	24 février 2025	Auto-déclaré
9	Claude Opus 4.1	Anthropic	56,0 %	5 août 2025	Auto-déclaré
10	GPT-5.4	OpenAI	50,0 %	5 mars 2026	Auto-déclaré
11	o1	OpenAI	50,0 %	17 décembre 2024	Auto-déclaré
12	GPT-4.1	OpenAI	49,4 %	14 avril 2025	Auto-déclaré
13	o4-mini	OpenAI	49,2 %	16 avril 2025	Auto-déclaré
14	Qwen3-Next-80B-A3B-Thinking	Qwen	49,0 %	10 septembre 2025	Auto-déclaré
15	Claude 3.5 Sonnet	Anthropic	46,0 %	22 octobre 2024	Auto-déclaré
16	Qwen3-235B-A22B-Thinking-2507	Qwen	46,0 %	25 juillet 2025	Auto-déclaré
17	Qwen3-Next-80B-A3B-Instruct	Qwen	44,0 %	10 septembre 2025	Auto-déclaré
18	GPT-4o	OpenAI	42,8 %	27 mars 2025	Auto-déclaré
19	GPT-4.1 mini	OpenAI	36,0 %	14 avril 2025	Auto-déclaré
20	o3-mini	OpenAI	32,4 %	30 janvier 2025	Auto-déclaré

Classement établi sur 22 modèles évalués, dont 19 de grands éditeurs. Score médian de l'ensemble : 49,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TAU-bench Airline indique qu’un agent parvient plus souvent à atteindre l’état final attendu de la base après plusieurs échanges, tout en appliquant les politiques du domaine et en mobilisant les outils disponibles. La métrique pass^k met l’accent sur la fiabilité sur plusieurs essais, ce qui est particulièrement pertinent pour des agents destinés à exécuter des tâches plutôt qu’à seulement produire une réponse.

Rigueur : l’évaluation repose sur une comparaison de l’état final avec un objectif annoté, mais les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité indépendante.
Limites : le périmètre reste celui de tâches en anglais dans le domaine airline, avec un jeu de taille limitée. Comme pour tout benchmark public, la saturation progressive et la contamination potentielle doivent être surveillées.
Classement : l’écart entre le score médian de l’ensemble et le meilleur résultat, obtenu par Claude Sonnet 4.5, suggère que la robustesse des agents outillés reste différenciante.

Sources des scores : llm-stats.

TAU-bench Airline

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++