Terminal-Bench 2.1
Terminal-Bench 2.1 est un benchmark conçu par Laude Institute et Stanford University pour évaluer des agents IA dans un environnement de terminal. Il porte sur des tâches réelles menées de bout en bout en ligne de commande, comme compiler du code, entraîner des modèles, configurer des…
Terminal-Bench 2.1 est un benchmark conçu par Laude Institute et Stanford University pour évaluer des agents IA dans un environnement de terminal. Il porte sur des tâches réelles menées de bout en bout en ligne de commande, comme compiler du code, entraîner des modèles, configurer des serveurs ou déboguer.
Son intérêt est de mesurer une compétence opérationnelle souvent peu capturée par les tests classiques: la capacité d’un modèle à utiliser un ordinateur de façon autonome, avec des résultats vérifiés par des tests. Il sert ainsi de repère pour comparer des agents sur des scénarios proches d’usages techniques concrets.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Laude Institute & Stanford University |
| Capacités mesurées | Capacité des agents IA à opérer un ordinateur via le terminal sur des tâches réelles end-to-end (compiler du code, entraîner des modèles, configurer des serveurs, déboguer). |
| Modalité | Texte |
| Type de questions | Agents IA en terminal / tâches end-to-end en ligne de commande |
| Métrique d'évaluation | Taux de résolution de tâches (tâches vérifiées par tests) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais |
| Taille du jeu | 89 tâches (la 2.1 corrige 28 des 89 tâches de la 2.0) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 84,3 % | 9 juin 2026 | Auto-déclaré |
| 2 | GLM-5.2 | Zhipu AI | 82,7 % | 16 juin 2026 | Auto-déclaré |
| 3 | Seed 2.1 Pro | bytedance | 71,0 % | 24 juin 2026 | Auto-déclaré |
| 4 | Seed 2.1 Turbo | bytedance | 67,6 % | 24 juin 2026 | Auto-déclaré |
| 5 | MiniMax M3 | MiniMax | 66,0 % | 1 juin 2026 | Auto-déclaré |
| 6 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 56,4 % | 4 juin 2026 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 69,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Terminal-Bench 2.1 indique qu’un agent parvient à résoudre une part importante de tâches terminal vérifiées par tests, ce qui suggère une bonne capacité à planifier, exécuter des commandes, corriger des erreurs et mener des workflows techniques jusqu’au résultat attendu. La mesure est plus concrète que de simples questions-réponses, car elle repose sur des tâches end-to-end en ligne de commande. La lecture du classement doit toutefois rester prudente: les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte avec une évaluation entièrement indépendante. Le jeu reste aussi de taille contenue, avec 89 tâches, et la version 2.1 corrige une partie des tâches de la 2.0, ce qui rappelle l’importance de la qualité des tests. Le meilleur score recensé, Claude Fable 5 à 84%, montre que les meilleurs agents progressent nettement, tandis que le score médian de 69% laisse subsister une marge d’échec significative sur des tâches techniques réelles.
Sources des scores : llm-stats.