Agents & outils

t2-bench

t2-bench est un benchmark consacré aux agents conversationnels capables d’utiliser des outils dans des tâches agentiques multi-étapes. Créé par Victor Barres et al. chez Sierra, il évalue la capacité d’un modèle à choisir, ordonner et exploiter des outils pour résoudre des scénarios…

Sa spécificité tient à son environnement Tool-Agent-User à double contrôle, où l’agent et l’utilisateur simulé peuvent tous deux modifier l’état partagé. Le benchmark vise ainsi à mieux distinguer les erreurs de raisonnement des erreurs de communication dans l’usage conversationnel d’outils.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Victor Barres et al. (Sierra)
Capacités mesurées	Évalue les agents conversationnels capables d'utiliser des outils dans un environnement partagé où l'agent ET l'utilisateur simulé peuvent modifier l'état, en distinguant erreurs de raisonnement et de communication.
Modalité	Texte
Type de questions	tâches agentiques conversationnelles d'usage d'outils (Tool-Agent-User) en environnement à double contrôle
Métrique d'évaluation	pass^k (évaluation basée sur la récompense / vérification d'actions)
Accès	Public
Licence	MIT (code) ; papier CC BY 4.0
Langues	anglais
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 3.1 Pro Preview	Google	99,3 %	19 février 2026	Auto-déclaré
2	Gemini 3 Flash	Google	90,2 %	17 décembre 2025	Auto-déclaré
3	GLM-5	Zhipu AI	89,7 %	11 février 2026	Auto-déclaré
4	Qwen3.5-397B-A17B	Qwen	86,7 %	16 février 2026	Auto-déclaré
5	Gemma 4 31B	Google	86,4 %	2 avril 2026	Auto-déclaré
6	Gemma 4 26B-A4B	Google	85,5 %	2 avril 2026	Auto-déclaré
7	Gemini 3 Pro	Google	85,4 %	18 novembre 2025	Auto-déclaré
8	Qwen3.5-35B-A3B	Qwen	81,2 %	24 février 2026	Auto-déclaré
9	DeepSeek-V3.2	DeepSeek	80,3 %	1 décembre 2025	Auto-déclaré
10	DeepSeek-V3.2-Speciale	DeepSeek	80,3 %	1 décembre 2025	Auto-déclaré
11	DeepSeek-V3.2 (Thinking)	DeepSeek	80,2 %	1 décembre 2025	Auto-déclaré
12	Qwen3.5-4B	Qwen	79,9 %	2 mars 2026	Auto-déclaré
13	Qwen3.5-122B-A10B	Qwen	79,5 %	24 février 2026	Auto-déclaré
14	Qwen3.5-9B	Qwen	79,1 %	2 mars 2026	Auto-déclaré
15	Qwen3.5-27B	Qwen	79,0 %	24 février 2026	Auto-déclaré
16	Qwen3 Max	Qwen	74,8 %	9 février 2026	Auto-déclaré
17	K-EXAONE-236B-A23B	LG AI Research	73,2 %	31 décembre 2025	Auto-déclaré
18	GPT OSS 120B	OpenAI	63,9 %	5 août 2025	Auto-déclaré
19	Gemma 4 E4B	Google	57,5 %	2 avril 2026	Auto-déclaré
20	DiffusionGemma 26B-A4B	Google	56,2 %	10 juin 2026	Auto-déclaré

Classement établi sur 23 modèles évalués, dont 21 de grands éditeurs. Score médian de l'ensemble : 79,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur t2-bench indique qu’un modèle parvient généralement à planifier, sélectionner les bons outils, exécuter les actions attendues et maintenir la cohérence d’un état partagé avec un utilisateur simulé. La métrique pass^k repose sur une vérification par récompense et actions, ce qui ancre l’évaluation dans l’exécution plutôt que dans une simple réponse textuelle. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Avec un score médian de 80 % et un meilleur résultat à 99 % pour Gemini 3.1 Pro Preview, le leaderboard montre une forte performance des meilleurs systèmes, mais suggère aussi un risque de saturation partielle si l’écart utile entre modèles se réduit. Le caractère public du benchmark peut également accroître le risque de contamination. Sa portée reste ciblée : anglais uniquement, tâches conversationnelles d’usage d’outils, et environnement à double contrôle, sans couvrir toute l’autonomie agentique possible.

Sources des scores : llm-stats.

t2-bench

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench