t2-bench

t2-bench est un benchmark consacré aux agents conversationnels capables d’utiliser des outils dans des tâches agentiques multi-étapes. Créé par Victor Barres et al. chez Sierra, il évalue la capacité d’un modèle à choisir, ordonner et exploiter des outils pour résoudre des scénarios…

t2-bench est un benchmark consacré aux agents conversationnels capables d’utiliser des outils dans des tâches agentiques multi-étapes. Créé par Victor Barres et al. chez Sierra, il évalue la capacité d’un modèle à choisir, ordonner et exploiter des outils pour résoudre des scénarios complexes.

Sa spécificité tient à son environnement Tool-Agent-User à double contrôle, où l’agent et l’utilisateur simulé peuvent tous deux modifier l’état partagé. Le benchmark vise ainsi à mieux distinguer les erreurs de raisonnement des erreurs de communication dans l’usage conversationnel d’outils.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkVictor Barres et al. (Sierra)
Capacités mesuréesÉvalue les agents conversationnels capables d'utiliser des outils dans un environnement partagé où l'agent ET l'utilisateur simulé peuvent modifier l'état, en distinguant erreurs de raisonnement et de communication.
ModalitéTexte
Type de questionstâches agentiques conversationnelles d'usage d'outils (Tool-Agent-User) en environnement à double contrôle
Métrique d'évaluationpass^k (évaluation basée sur la récompense / vérification d'actions)
AccèsPublic
LicenceMIT (code) ; papier CC BY 4.0
Languesanglais
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 3.1 Pro PreviewGoogle99,3 %19 février 2026Auto-déclaré
2Gemini 3 FlashGoogle90,2 %17 décembre 2025Auto-déclaré
3GLM-5Zhipu AI89,7 %11 février 2026Auto-déclaré
4Qwen3.5-397B-A17BQwen86,7 %16 février 2026Auto-déclaré
5Gemma 4 31BGoogle86,4 %2 avril 2026Auto-déclaré
6Gemma 4 26B-A4BGoogle85,5 %2 avril 2026Auto-déclaré
7Gemini 3 ProGoogle85,4 %18 novembre 2025Auto-déclaré
8Qwen3.5-35B-A3BQwen81,2 %24 février 2026Auto-déclaré
9DeepSeek-V3.2DeepSeek80,3 %1 décembre 2025Auto-déclaré
10DeepSeek-V3.2-SpecialeDeepSeek80,3 %1 décembre 2025Auto-déclaré
11DeepSeek-V3.2 (Thinking)DeepSeek80,2 %1 décembre 2025Auto-déclaré
12Qwen3.5-4BQwen79,9 %2 mars 2026Auto-déclaré
13Qwen3.5-122B-A10BQwen79,5 %24 février 2026Auto-déclaré
14Qwen3.5-9BQwen79,1 %2 mars 2026Auto-déclaré
15Qwen3.5-27BQwen79,0 %24 février 2026Auto-déclaré
16Qwen3 MaxQwen74,8 %9 février 2026Auto-déclaré
17K-EXAONE-236B-A23BLG AI Research73,2 %31 décembre 2025Auto-déclaré
18GPT OSS 120BOpenAI63,9 %5 août 2025Auto-déclaré
19Gemma 4 E4BGoogle57,5 %2 avril 2026Auto-déclaré
20DiffusionGemma 26B-A4BGoogle56,2 %10 juin 2026Auto-déclaré

Classement établi sur 23 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 79,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur t2-bench indique qu’un modèle parvient généralement à planifier, sélectionner les bons outils, exécuter les actions attendues et maintenir la cohérence d’un état partagé avec un utilisateur simulé. La métrique pass^k repose sur une vérification par récompense et actions, ce qui ancre l’évaluation dans l’exécution plutôt que dans une simple réponse textuelle. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Avec un score médian de 80 % et un meilleur résultat à 99 % pour Gemini 3.1 Pro Preview, le leaderboard montre une forte performance des meilleurs systèmes, mais suggère aussi un risque de saturation partielle si l’écart utile entre modèles se réduit. Le caractère public du benchmark peut également accroître le risque de contamination. Sa portée reste ciblée : anglais uniquement, tâches conversationnelles d’usage d’outils, et environnement à double contrôle, sans couvrir toute l’autonomie agentique possible.


Sources des scores : llm-stats.