t2-bench
t2-bench est un benchmark consacré aux agents conversationnels capables d’utiliser des outils dans des tâches agentiques multi-étapes. Créé par Victor Barres et al. chez Sierra, il évalue la capacité d’un modèle à choisir, ordonner et exploiter des outils pour résoudre des scénarios…
t2-bench est un benchmark consacré aux agents conversationnels capables d’utiliser des outils dans des tâches agentiques multi-étapes. Créé par Victor Barres et al. chez Sierra, il évalue la capacité d’un modèle à choisir, ordonner et exploiter des outils pour résoudre des scénarios complexes.
Sa spécificité tient à son environnement Tool-Agent-User à double contrôle, où l’agent et l’utilisateur simulé peuvent tous deux modifier l’état partagé. Le benchmark vise ainsi à mieux distinguer les erreurs de raisonnement des erreurs de communication dans l’usage conversationnel d’outils.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Victor Barres et al. (Sierra) |
| Capacités mesurées | Évalue les agents conversationnels capables d'utiliser des outils dans un environnement partagé où l'agent ET l'utilisateur simulé peuvent modifier l'état, en distinguant erreurs de raisonnement et de communication. |
| Modalité | Texte |
| Type de questions | tâches agentiques conversationnelles d'usage d'outils (Tool-Agent-User) en environnement à double contrôle |
| Métrique d'évaluation | pass^k (évaluation basée sur la récompense / vérification d'actions) |
| Accès | Public |
| Licence | MIT (code) ; papier CC BY 4.0 |
| Langues | anglais |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 3.1 Pro Preview | 99,3 % | 19 février 2026 | Auto-déclaré | |
| 2 | Gemini 3 Flash | 90,2 % | 17 décembre 2025 | Auto-déclaré | |
| 3 | GLM-5 | Zhipu AI | 89,7 % | 11 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-397B-A17B | Qwen | 86,7 % | 16 février 2026 | Auto-déclaré |
| 5 | Gemma 4 31B | 86,4 % | 2 avril 2026 | Auto-déclaré | |
| 6 | Gemma 4 26B-A4B | 85,5 % | 2 avril 2026 | Auto-déclaré | |
| 7 | Gemini 3 Pro | 85,4 % | 18 novembre 2025 | Auto-déclaré | |
| 8 | Qwen3.5-35B-A3B | Qwen | 81,2 % | 24 février 2026 | Auto-déclaré |
| 9 | DeepSeek-V3.2 | DeepSeek | 80,3 % | 1 décembre 2025 | Auto-déclaré |
| 10 | DeepSeek-V3.2-Speciale | DeepSeek | 80,3 % | 1 décembre 2025 | Auto-déclaré |
| 11 | DeepSeek-V3.2 (Thinking) | DeepSeek | 80,2 % | 1 décembre 2025 | Auto-déclaré |
| 12 | Qwen3.5-4B | Qwen | 79,9 % | 2 mars 2026 | Auto-déclaré |
| 13 | Qwen3.5-122B-A10B | Qwen | 79,5 % | 24 février 2026 | Auto-déclaré |
| 14 | Qwen3.5-9B | Qwen | 79,1 % | 2 mars 2026 | Auto-déclaré |
| 15 | Qwen3.5-27B | Qwen | 79,0 % | 24 février 2026 | Auto-déclaré |
| 16 | Qwen3 Max | Qwen | 74,8 % | 9 février 2026 | Auto-déclaré |
| 17 | K-EXAONE-236B-A23B | LG AI Research | 73,2 % | 31 décembre 2025 | Auto-déclaré |
| 18 | GPT OSS 120B | OpenAI | 63,9 % | 5 août 2025 | Auto-déclaré |
| 19 | Gemma 4 E4B | 57,5 % | 2 avril 2026 | Auto-déclaré | |
| 20 | DiffusionGemma 26B-A4B | 56,2 % | 10 juin 2026 | Auto-déclaré |
Classement établi sur 23 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 79,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur t2-bench indique qu’un modèle parvient généralement à planifier, sélectionner les bons outils, exécuter les actions attendues et maintenir la cohérence d’un état partagé avec un utilisateur simulé. La métrique pass^k repose sur une vérification par récompense et actions, ce qui ancre l’évaluation dans l’exécution plutôt que dans une simple réponse textuelle. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Avec un score médian de 80 % et un meilleur résultat à 99 % pour Gemini 3.1 Pro Preview, le leaderboard montre une forte performance des meilleurs systèmes, mais suggère aussi un risque de saturation partielle si l’écart utile entre modèles se réduit. Le caractère public du benchmark peut également accroître le risque de contamination. Sa portée reste ciblée : anglais uniquement, tâches conversationnelles d’usage d’outils, et environnement à double contrôle, sans couvrir toute l’autonomie agentique possible.
Sources des scores : llm-stats.