Agents & outils

Tau2 Airline

Tau2 Airline est un benchmark conçu par Sierra Research pour évaluer des agents conversationnels dans des scénarios de service client aérien. Il met en scène des dialogues multi-tours où l’agent et l’utilisateur disposent chacun d’un contrôle sur certains outils, ce qui impose une…

Le benchmark mesure la capacité des modèles à utiliser des outils, respecter des règles, communiquer clairement et guider des actions utilisateur dans des tâches comme la réservation, la modification, l’annulation ou le remboursement de vols. Il sert ainsi à tester des compétences d’agenticité proches d’un environnement opérationnel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Sierra Research
Capacités mesurées	agents conversationnels dual-control, usage d'outils, coordination agent-utilisateur, respect de règles, communication
Modalité	Texte
Type de questions	dialogues multi-tours agent-utilisateur en environnement dual-control avec appels d'outils (domaine compagnie aérienne)
Métrique d'évaluation	pass^k (proportion de tâches réussies sur k essais)
Accès	Public
Licence	MIT
Langues	anglais
Taille du jeu	domaine airline de τ²-bench (~50 tâches)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	LongCat-Flash-Thinking-2601	Meituan	76,5 %	14 janvier 2026	Auto-déclaré
2	Nova 2 Omni	Amazon	68,8 %	2 décembre 2025	Auto-déclaré
3	LongCat-Flash-Thinking	Meituan	67,5 %	22 septembre 2025	Auto-déclaré
4	GPT-5.1	OpenAI	67,0 %	13 novembre 2025	Auto-déclaré
5	GPT-5.1 Instant	OpenAI	67,0 %	12 novembre 2025	Auto-déclaré
6	Nova 2 Pro	Amazon	65,2 %	2 décembre 2025	Auto-déclaré
7	Nova 2 Lite	Amazon	64,8 %	2 décembre 2025	Auto-déclaré
8	o3	OpenAI	64,8 %	16 avril 2025	Auto-déclaré
9	Claude Haiku 4.5	Anthropic	63,6 %	15 octobre 2025	Auto-déclaré
10	GPT-5	OpenAI	62,6 %	7 août 2025	Auto-déclaré
11	Qwen3-Next-80B-A3B-Thinking	Qwen	60,5 %	10 septembre 2025	Auto-déclaré
12	LongCat-Flash-Chat	Meituan	58,0 %	29 août 2025	Auto-déclaré
13	LongCat-Flash-Lite	Meituan	58,0 %	5 février 2026	Auto-déclaré
14	Qwen3-235B-A22B-Thinking-2507	Qwen	58,0 %	25 juillet 2025	Auto-déclaré
15	Kimi K2 Instruct	Moonshot AI	56,5 %	11 juillet 2025	Auto-déclaré
16	Kimi K2-Instruct-0905	Moonshot AI	56,5 %	5 septembre 2025	Auto-déclaré
17	Nemotron 3 Super (120B A12B)	NVIDIA	56,2 %	11 mars 2026	Auto-déclaré
18	Mercury 2	Inception	53,0 %	24 février 2026	Auto-déclaré
19	Nemotron 3 Nano (30B A3B)	NVIDIA	48,0 %	15 décembre 2025	Auto-déclaré
20	GPT-4o	OpenAI	45,5 %	27 mars 2025	Auto-déclaré

Classement établi sur 22 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 59,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau2 Airline indique qu’un modèle parvient fréquemment à mener à bien des tâches complexes en plusieurs tours, avec appels d’outils et coordination avec l’utilisateur. La métrique pass^k reflète la proportion de tâches réussies sur plusieurs essais, ce qui valorise la robustesse procédurale autant que la qualité linguistique. Dans la base, le meilleur résultat atteint 76% avec LongCat-Flash-Thinking-2601, tandis que la médiane des 22 modèles évalués est de 59%, ce qui suggère un benchmark encore discriminant et non saturé.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le jeu étant public et limité au domaine airline de τ²-bench, il existe aussi un risque classique de contamination ou d’optimisation spécifique. La portée reste centrée sur le service client aérien en anglais, ce qui éclaire surtout la performance d’agents outillés dans ce type de workflow, sans généraliser à tous les usages conversationnels.

Sources des scores : llm-stats.

Tau2 Airline

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench