Tau2 Telecom
Tau2 Telecom est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels capables d’utiliser des outils dans des situations de dépannage télécom. Il s’inscrit dans le domaine telecom de tau2-bench et repose sur des scénarios conversationnels multi-tours où…
Tau2 Telecom est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels capables d’utiliser des outils dans des situations de dépannage télécom. Il s’inscrit dans le domaine telecom de tau2-bench et repose sur des scénarios conversationnels multi-tours où l’agent et l’utilisateur peuvent agir sur un environnement partagé.
Le benchmark mesure surtout la coordination, la communication et l’exécution de tâches vérifiables dans un cadre dual-control modélisé comme un Dec-POMDP. Il sert à apprécier la capacité des modèles à gérer des interactions outillées, dynamiques et orientées résolution de problème.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Sierra Research |
| Capacités mesurées | Agents conversationnels avec outils dans un environnement partage, coordination agent-utilisateur sur des scenarios de depannage telecom |
| Modalité | Texte |
| Type de questions | scenarios conversationnels multi-tours en dual-control (Dec-POMDP) avec appels d'outils par l'agent et l'utilisateur |
| Métrique d'évaluation | taux de reussite des taches (pass^k / reward verifiable) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | domaine telecom de tau2-bench (taches de depannage generees par un generateur compositionnel) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Anthropic | 99,3 % | 7 avril 2026 | Auto-déclaré |
| 2 | LongCat-Flash-Thinking-2601 | Meituan | 99,3 % | 14 janvier 2026 | Auto-déclaré |
| 3 | GPT-5.4 | OpenAI | 98,9 % | 5 mars 2026 | Auto-déclaré |
| 4 | GPT-5.2 | OpenAI | 98,7 % | 11 décembre 2025 | Auto-déclaré |
| 5 | Claude Opus 4.5 | Anthropic | 98,2 % | 24 novembre 2025 | Auto-déclaré |
| 6 | GPT-5.5 | OpenAI | 98,0 % | 23 avril 2026 | Auto-déclaré |
| 7 | Claude Sonnet 4.6 | Anthropic | 97,9 % | 17 février 2026 | Auto-déclaré |
| 8 | MiMo-V2-Pro | Xiaomi | 96,8 % | 18 mars 2026 | Auto-déclaré |
| 9 | GPT-5 | OpenAI | 96,7 % | 7 août 2025 | Auto-déclaré |
| 10 | GPT-5.1 | OpenAI | 95,6 % | 13 novembre 2025 | Auto-déclaré |
| 11 | GPT-5.1 Instant | OpenAI | 95,6 % | 12 novembre 2025 | Auto-déclaré |
| 12 | GPT-5.4 mini | OpenAI | 93,4 % | 17 mars 2026 | Auto-déclaré |
| 13 | Nova 2 Pro | Amazon | 92,7 % | 2 décembre 2025 | Auto-déclaré |
| 14 | GPT-5.4 nano | OpenAI | 92,5 % | 17 mars 2026 | Auto-déclaré |
| 15 | Muse Spark | Meta | 91,5 % | 8 avril 2026 | Auto-déclaré |
| 16 | MiniMax M2 | MiniMax | 87,0 % | 27 octobre 2025 | Auto-déclaré |
| 17 | MiniMax M2.1 | MiniMax | 87,0 % | 23 décembre 2025 | Auto-déclaré |
| 18 | Command A+ | cohere | 85,0 % | 20 mai 2026 | Auto-déclaré |
| 19 | LongCat-Flash-Thinking | Meituan | 83,1 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Claude Haiku 4.5 | Anthropic | 83,0 % | 15 octobre 2025 | Auto-déclaré |
Classement établi sur 34 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 86,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Tau2 Telecom indique qu’un modèle parvient fréquemment à mener à bien des tâches de dépannage télécom en coordonnant ses actions avec celles de l’utilisateur, tout en exploitant les outils disponibles. La métrique de réussite des tâches, de type pass^k ou reward vérifiable, donne un signal plus opérationnel qu’une simple réponse textuelle, car elle évalue l’aboutissement du scénario. La lecture du classement doit toutefois rester prudente, les scores disponibles étant majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé et le meilleur score proche du maximum suggèrent une possible saturation partielle, qui peut réduire la capacité du benchmark à distinguer les modèles les plus performants. Son accès public expose aussi à un risque de contamination des données d’évaluation. Enfin, la portée reste centrée sur des scénarios de dépannage télécom en anglais. Le classement révèle donc surtout la maturité des meilleurs agents outillés dans ce cadre précis, plutôt qu’une compétence générale tous domaines confondus.
Sources des scores : llm-stats.