Terminal-Bench 2.1

Terminal-Bench 2.1 est un benchmark conçu par Laude Institute et Stanford University pour évaluer des agents IA dans un environnement de terminal. Il porte sur des tâches réelles menées de bout en bout en ligne de commande, comme compiler du code, entraîner des modèles, configurer des…

Terminal-Bench 2.1 est un benchmark conçu par Laude Institute et Stanford University pour évaluer des agents IA dans un environnement de terminal. Il porte sur des tâches réelles menées de bout en bout en ligne de commande, comme compiler du code, entraîner des modèles, configurer des serveurs ou déboguer.

Son intérêt est de mesurer une compétence opérationnelle souvent peu capturée par les tests classiques: la capacité d’un modèle à utiliser un ordinateur de façon autonome, avec des résultats vérifiés par des tests. Il sert ainsi de repère pour comparer des agents sur des scénarios proches d’usages techniques concrets.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLaude Institute & Stanford University
Capacités mesuréesCapacité des agents IA à opérer un ordinateur via le terminal sur des tâches réelles end-to-end (compiler du code, entraîner des modèles, configurer des serveurs, déboguer).
ModalitéTexte
Type de questionsAgents IA en terminal / tâches end-to-end en ligne de commande
Métrique d'évaluationTaux de résolution de tâches (tâches vérifiées par tests)
AccèsPublic
LicenceApache-2.0
Languesanglais
Taille du jeu89 tâches (la 2.1 corrige 28 des 89 tâches de la 2.0)
Année de publication2026
RessourcesSite / dépôt officiel

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic84,3 %9 juin 2026Auto-déclaré
2GLM-5.2Zhipu AI82,7 %16 juin 2026Auto-déclaré
3Seed 2.1 Probytedance71,0 %24 juin 2026Auto-déclaré
4Seed 2.1 Turbobytedance67,6 %24 juin 2026Auto-déclaré
5MiniMax M3MiniMax66,0 %1 juin 2026Auto-déclaré
6Nemotron 3 Ultra (550B A55B)NVIDIA56,4 %4 juin 2026Auto-déclaré

Classement établi sur 6 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 69,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Terminal-Bench 2.1 indique qu’un agent parvient à résoudre une part importante de tâches terminal vérifiées par tests, ce qui suggère une bonne capacité à planifier, exécuter des commandes, corriger des erreurs et mener des workflows techniques jusqu’au résultat attendu. La mesure est plus concrète que de simples questions-réponses, car elle repose sur des tâches end-to-end en ligne de commande. La lecture du classement doit toutefois rester prudente: les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte avec une évaluation entièrement indépendante. Le jeu reste aussi de taille contenue, avec 89 tâches, et la version 2.1 corrige une partie des tâches de la 2.0, ce qui rappelle l’importance de la qualité des tests. Le meilleur score recensé, Claude Fable 5 à 84%, montre que les meilleurs agents progressent nettement, tandis que le score médian de 69% laisse subsister une marge d’échec significative sur des tâches techniques réelles.


Sources des scores : llm-stats.