Tau2 Airline
Tau2 Airline est un benchmark conçu par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client aérien. Il met en scène des dialogues multi-tours où l’agent et l’utilisateur disposent chacun d’un contrôle sur certains outils, ce qui impose une…
Tau2 Airline est un benchmark conçu par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client aérien. Il met en scène des dialogues multi-tours où l’agent et l’utilisateur disposent chacun d’un contrôle sur certains outils, ce qui impose une coordination explicite plutôt qu’une simple réponse textuelle.
Le benchmark mesure la capacité des modèles à utiliser des outils, respecter des règles, communiquer clairement et guider des actions utilisateur dans des tâches comme la réservation, la modification, l’annulation ou le remboursement de vols. Il sert ainsi à tester des compétences d’agenticité proches d’un environnement opérationnel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Sierra Research |
| Capacités mesurées | agents conversationnels dual-control, usage d'outils, coordination agent-utilisateur, respect de règles, communication |
| Modalité | Texte |
| Type de questions | dialogues multi-tours agent-utilisateur en environnement dual-control avec appels d'outils (domaine compagnie aérienne) |
| Métrique d'évaluation | pass^k (proportion de tâches réussies sur k essais) |
| Accès | Public |
| Licence | MIT |
| Langues | anglais |
| Taille du jeu | domaine airline de τ²-bench (~50 tâches) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | LongCat-Flash-Thinking-2601 | Meituan | 76,5 % | 14 janvier 2026 | Auto-déclaré |
| 2 | Nova 2 Omni | Amazon | 68,8 % | 2 décembre 2025 | Auto-déclaré |
| 3 | LongCat-Flash-Thinking | Meituan | 67,5 % | 22 septembre 2025 | Auto-déclaré |
| 4 | GPT-5.1 | OpenAI | 67,0 % | 13 novembre 2025 | Auto-déclaré |
| 5 | GPT-5.1 Instant | OpenAI | 67,0 % | 12 novembre 2025 | Auto-déclaré |
| 6 | Nova 2 Pro | Amazon | 65,2 % | 2 décembre 2025 | Auto-déclaré |
| 7 | Nova 2 Lite | Amazon | 64,8 % | 2 décembre 2025 | Auto-déclaré |
| 8 | o3 | OpenAI | 64,8 % | 16 avril 2025 | Auto-déclaré |
| 9 | Claude Haiku 4.5 | Anthropic | 63,6 % | 15 octobre 2025 | Auto-déclaré |
| 10 | GPT-5 | OpenAI | 62,6 % | 7 août 2025 | Auto-déclaré |
| 11 | Qwen3-Next-80B-A3B-Thinking | Qwen | 60,5 % | 10 septembre 2025 | Auto-déclaré |
| 12 | LongCat-Flash-Chat | Meituan | 58,0 % | 29 août 2025 | Auto-déclaré |
| 13 | LongCat-Flash-Lite | Meituan | 58,0 % | 5 février 2026 | Auto-déclaré |
| 14 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 58,0 % | 25 juillet 2025 | Auto-déclaré |
| 15 | Kimi K2 Instruct | Moonshot AI | 56,5 % | 11 juillet 2025 | Auto-déclaré |
| 16 | Kimi K2-Instruct-0905 | Moonshot AI | 56,5 % | 5 septembre 2025 | Auto-déclaré |
| 17 | Nemotron 3 Super (120B A12B) | NVIDIA | 56,2 % | 11 mars 2026 | Auto-déclaré |
| 18 | Mercury 2 | Inception | 53,0 % | 24 février 2026 | Auto-déclaré |
| 19 | Nemotron 3 Nano (30B A3B) | NVIDIA | 48,0 % | 15 décembre 2025 | Auto-déclaré |
| 20 | GPT-4o | OpenAI | 45,5 % | 27 mars 2025 | Auto-déclaré |
Classement établi sur 22 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 59,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Tau2 Airline indique qu’un modèle parvient fréquemment à mener à bien des tâches complexes en plusieurs tours, avec appels d’outils et coordination avec l’utilisateur. La métrique pass^k reflète la proportion de tâches réussies sur plusieurs essais, ce qui valorise la robustesse procédurale autant que la qualité linguistique. Dans la base, le meilleur résultat atteint 76% avec LongCat-Flash-Thinking-2601, tandis que la médiane des 22 modèles évalués est de 59%, ce qui suggère un benchmark encore discriminant et non saturé.
La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le jeu étant public et limité au domaine airline de τ²-bench, il existe aussi un risque classique de contamination ou d’optimisation spécifique. La portée reste centrée sur le service client aérien en anglais, ce qui éclaire surtout la performance d’agents outillés dans ce type de workflow, sans généraliser à tous les usages conversationnels.
Sources des scores : llm-stats.