Agents & outils

Tau2 Telecom

Tau2 Telecom est un benchmark de Sierra Research consacré à l’évaluation d’agents conversationnels capables d’utiliser des outils dans des situations de dépannage télécom. Il s’inscrit dans le domaine telecom de tau2-bench et repose sur des scénarios conversationnels multi-tours où…

Le benchmark mesure surtout la coordination, la communication et l’exécution de tâches vérifiables dans un cadre dual-control modélisé comme un Dec-POMDP. Il sert à apprécier la capacité des modèles à gérer des interactions outillées, dynamiques et orientées résolution de problème.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Sierra Research
Capacités mesurées	Agents conversationnels avec outils dans un environnement partage, coordination agent-utilisateur sur des scenarios de depannage telecom
Modalité	Texte
Type de questions	scenarios conversationnels multi-tours en dual-control (Dec-POMDP) avec appels d'outils par l'agent et l'utilisateur
Métrique d'évaluation	taux de reussite des taches (pass^k / reward verifiable)
Accès	Public
Langues	anglais
Taille du jeu	domaine telecom de tau2-bench (taches de depannage generees par un generateur compositionnel)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.6	Anthropic	99,3 %	7 avril 2026	Auto-déclaré
2	LongCat-Flash-Thinking-2601	Meituan	99,3 %	14 janvier 2026	Auto-déclaré
3	GPT-5.4	OpenAI	98,9 %	5 mars 2026	Auto-déclaré
4	GPT-5.2	OpenAI	98,7 %	11 décembre 2025	Auto-déclaré
5	Claude Opus 4.5	Anthropic	98,2 %	24 novembre 2025	Auto-déclaré
6	GPT-5.5	OpenAI	98,0 %	23 avril 2026	Auto-déclaré
7	Claude Sonnet 4.6	Anthropic	97,9 %	17 février 2026	Auto-déclaré
8	MiMo-V2-Pro	Xiaomi	96,8 %	18 mars 2026	Auto-déclaré
9	GPT-5	OpenAI	96,7 %	7 août 2025	Auto-déclaré
10	GPT-5.1	OpenAI	95,6 %	13 novembre 2025	Auto-déclaré
11	GPT-5.1 Instant	OpenAI	95,6 %	12 novembre 2025	Auto-déclaré
12	GPT-5.4 mini	OpenAI	93,4 %	17 mars 2026	Auto-déclaré
13	Nova 2 Pro	Amazon	92,7 %	2 décembre 2025	Auto-déclaré
14	GPT-5.4 nano	OpenAI	92,5 %	17 mars 2026	Auto-déclaré
15	Muse Spark	Meta	91,5 %	8 avril 2026	Auto-déclaré
16	MiniMax M2	MiniMax	87,0 %	27 octobre 2025	Auto-déclaré
17	MiniMax M2.1	MiniMax	87,0 %	23 décembre 2025	Auto-déclaré
18	Command A+	cohere	85,0 %	20 mai 2026	Auto-déclaré
19	LongCat-Flash-Thinking	Meituan	83,1 %	22 septembre 2025	Auto-déclaré
20	Claude Haiku 4.5	Anthropic	83,0 %	15 octobre 2025	Auto-déclaré

Classement établi sur 34 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 86,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Tau2 Telecom indique qu’un modèle parvient fréquemment à mener à bien des tâches de dépannage télécom en coordonnant ses actions avec celles de l’utilisateur, tout en exploitant les outils disponibles. La métrique de réussite des tâches, de type pass^k ou reward vérifiable, donne un signal plus opérationnel qu’une simple réponse textuelle, car elle évalue l’aboutissement du scénario. La lecture du classement doit toutefois rester prudente, les scores disponibles étant majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé et le meilleur score proche du maximum suggèrent une possible saturation partielle, qui peut réduire la capacité du benchmark à distinguer les modèles les plus performants. Son accès public expose aussi à un risque de contamination des données d’évaluation. Enfin, la portée reste centrée sur des scénarios de dépannage télécom en anglais. Le classement révèle donc surtout la maturité des meilleurs agents outillés dans ce cadre précis, plutôt qu’une compétence générale tous domaines confondus.

Sources des scores : llm-stats.

Tau2 Telecom

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++