Tau2 Telecom

Tau2 Telecom est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels capables d’utiliser des outils dans des situations de dépannage télécom. Il s’inscrit dans le domaine telecom de tau2-bench et repose sur des scénarios conversationnels multi-tours où…

Tau2 Telecom est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels capables d’utiliser des outils dans des situations de dépannage télécom. Il s’inscrit dans le domaine telecom de tau2-bench et repose sur des scénarios conversationnels multi-tours où l’agent et l’utilisateur peuvent agir sur un environnement partagé.

Le benchmark mesure surtout la coordination, la communication et l’exécution de tâches vérifiables dans un cadre dual-control modélisé comme un Dec-POMDP. Il sert à apprécier la capacité des modèles à gérer des interactions outillées, dynamiques et orientées résolution de problème.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSierra Research
Capacités mesuréesAgents conversationnels avec outils dans un environnement partage, coordination agent-utilisateur sur des scenarios de depannage telecom
ModalitéTexte
Type de questionsscenarios conversationnels multi-tours en dual-control (Dec-POMDP) avec appels d'outils par l'agent et l'utilisateur
Métrique d'évaluationtaux de reussite des taches (pass^k / reward verifiable)
AccèsPublic
Languesanglais
Taille du jeudomaine telecom de tau2-bench (taches de depannage generees par un generateur compositionnel)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.6Anthropic99,3 %7 avril 2026Auto-déclaré
2LongCat-Flash-Thinking-2601Meituan99,3 %14 janvier 2026Auto-déclaré
3GPT-5.4OpenAI98,9 %5 mars 2026Auto-déclaré
4GPT-5.2OpenAI98,7 %11 décembre 2025Auto-déclaré
5Claude Opus 4.5Anthropic98,2 %24 novembre 2025Auto-déclaré
6GPT-5.5OpenAI98,0 %23 avril 2026Auto-déclaré
7Claude Sonnet 4.6Anthropic97,9 %17 février 2026Auto-déclaré
8MiMo-V2-ProXiaomi96,8 %18 mars 2026Auto-déclaré
9GPT-5OpenAI96,7 %7 août 2025Auto-déclaré
10GPT-5.1OpenAI95,6 %13 novembre 2025Auto-déclaré
11GPT-5.1 InstantOpenAI95,6 %12 novembre 2025Auto-déclaré
12GPT-5.4 miniOpenAI93,4 %17 mars 2026Auto-déclaré
13Nova 2 ProAmazon92,7 %2 décembre 2025Auto-déclaré
14GPT-5.4 nanoOpenAI92,5 %17 mars 2026Auto-déclaré
15Muse SparkMeta91,5 %8 avril 2026Auto-déclaré
16MiniMax M2MiniMax87,0 %27 octobre 2025Auto-déclaré
17MiniMax M2.1MiniMax87,0 %23 décembre 2025Auto-déclaré
18Command A+cohere85,0 %20 mai 2026Auto-déclaré
19LongCat-Flash-ThinkingMeituan83,1 %22 septembre 2025Auto-déclaré
20Claude Haiku 4.5Anthropic83,0 %15 octobre 2025Auto-déclaré

Classement établi sur 34 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 86,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau2 Telecom indique qu’un modèle parvient fréquemment à mener à bien des tâches de dépannage télécom en coordonnant ses actions avec celles de l’utilisateur, tout en exploitant les outils disponibles. La métrique de réussite des tâches, de type pass^k ou reward vérifiable, donne un signal plus opérationnel qu’une simple réponse textuelle, car elle évalue l’aboutissement du scénario. La lecture du classement doit toutefois rester prudente, les scores disponibles étant majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé et le meilleur score proche du maximum suggèrent une possible saturation partielle, qui peut réduire la capacité du benchmark à distinguer les modèles les plus performants. Son accès public expose aussi à un risque de contamination des données d’évaluation. Enfin, la portée reste centrée sur des scénarios de dépannage télécom en anglais. Le classement révèle donc surtout la maturité des meilleurs agents outillés dans ce cadre précis, plutôt qu’une compétence générale tous domaines confondus.


Sources des scores : llm-stats.