Tau2 Airline

Tau2 Airline est un benchmark conçu par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client aérien. Il met en scène des dialogues multi-tours où l’agent et l’utilisateur disposent chacun d’un contrôle sur certains outils, ce qui impose une…

Tau2 Airline est un benchmark conçu par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client aérien. Il met en scène des dialogues multi-tours où l’agent et l’utilisateur disposent chacun d’un contrôle sur certains outils, ce qui impose une coordination explicite plutôt qu’une simple réponse textuelle.

Le benchmark mesure la capacité des modèles à utiliser des outils, respecter des règles, communiquer clairement et guider des actions utilisateur dans des tâches comme la réservation, la modification, l’annulation ou le remboursement de vols. Il sert ainsi à tester des compétences d’agenticité proches d’un environnement opérationnel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSierra Research
Capacités mesuréesagents conversationnels dual-control, usage d'outils, coordination agent-utilisateur, respect de règles, communication
ModalitéTexte
Type de questionsdialogues multi-tours agent-utilisateur en environnement dual-control avec appels d'outils (domaine compagnie aérienne)
Métrique d'évaluationpass^k (proportion de tâches réussies sur k essais)
AccèsPublic
LicenceMIT
Languesanglais
Taille du jeudomaine airline de τ²-bench (~50 tâches)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1LongCat-Flash-Thinking-2601Meituan76,5 %14 janvier 2026Auto-déclaré
2Nova 2 OmniAmazon68,8 %2 décembre 2025Auto-déclaré
3LongCat-Flash-ThinkingMeituan67,5 %22 septembre 2025Auto-déclaré
4GPT-5.1OpenAI67,0 %13 novembre 2025Auto-déclaré
5GPT-5.1 InstantOpenAI67,0 %12 novembre 2025Auto-déclaré
6Nova 2 ProAmazon65,2 %2 décembre 2025Auto-déclaré
7Nova 2 LiteAmazon64,8 %2 décembre 2025Auto-déclaré
8o3OpenAI64,8 %16 avril 2025Auto-déclaré
9Claude Haiku 4.5Anthropic63,6 %15 octobre 2025Auto-déclaré
10GPT-5OpenAI62,6 %7 août 2025Auto-déclaré
11Qwen3-Next-80B-A3B-ThinkingQwen60,5 %10 septembre 2025Auto-déclaré
12LongCat-Flash-ChatMeituan58,0 %29 août 2025Auto-déclaré
13LongCat-Flash-LiteMeituan58,0 %5 février 2026Auto-déclaré
14Qwen3-235B-A22B-Thinking-2507Qwen58,0 %25 juillet 2025Auto-déclaré
15Kimi K2 InstructMoonshot AI56,5 %11 juillet 2025Auto-déclaré
16Kimi K2-Instruct-0905Moonshot AI56,5 %5 septembre 2025Auto-déclaré
17Nemotron 3 Super (120B A12B)NVIDIA56,2 %11 mars 2026Auto-déclaré
18Mercury 2Inception53,0 %24 février 2026Auto-déclaré
19Nemotron 3 Nano (30B A3B)NVIDIA48,0 %15 décembre 2025Auto-déclaré
20GPT-4oOpenAI45,5 %27 mars 2025Auto-déclaré

Classement établi sur 22 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 59,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau2 Airline indique qu’un modèle parvient fréquemment à mener à bien des tâches complexes en plusieurs tours, avec appels d’outils et coordination avec l’utilisateur. La métrique pass^k reflète la proportion de tâches réussies sur plusieurs essais, ce qui valorise la robustesse procédurale autant que la qualité linguistique. Dans la base, le meilleur résultat atteint 76% avec LongCat-Flash-Thinking-2601, tandis que la médiane des 22 modèles évalués est de 59%, ce qui suggère un benchmark encore discriminant et non saturé.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le jeu étant public et limité au domaine airline de τ²-bench, il existe aussi un risque classique de contamination ou d’optimisation spécifique. La portée reste centrée sur le service client aérien en anglais, ce qui éclaire surtout la performance d’agents outillés dans ce type de workflow, sans généraliser à tous les usages conversationnels.


Sources des scores : llm-stats.