Terminal-Bench

Terminal-Bench est un benchmark conçu pour tester des agents d’IA dans de véritables environnements de terminal. Créé par Stanford University, Laude Institute et la communauté Terminal-Bench, il se concentre sur des tâches end-to-end en ligne de commande, exécutées dans des…

Terminal-Bench est un benchmark conçu pour tester des agents d’IA dans de véritables environnements de terminal. Créé par Stanford University, Laude Institute et la communauté Terminal-Bench, il se concentre sur des tâches end-to-end en ligne de commande, exécutées dans des environnements Docker isolés.

Son intérêt est d’évaluer la capacité d’un modèle à agir de façon autonome sur des problèmes proches d’un usage réel : compiler du code, entraîner des modèles, configurer des serveurs, administrer un système ou déboguer. Il sert ainsi de repère pour mesurer des compétences opérationnelles au-delà de la simple génération de texte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkStanford University et Laude Institute (+ communauté Terminal-Bench)
Capacités mesuréesExécution autonome de tâches terminal réelles : compilation de code, entraînement de modèles, configuration de serveurs, administration système et débogage.
ModalitéTexte
Type de questionsTâches end-to-end en ligne de commande pour agents (environnements Docker isolés)
Métrique d'évaluationScripts de test de vérification par tâche (réussite/échec), taux de succès
AccèsPublic
LicenceApache-2.0
Languesanglais (+ environnements Linux/CLI)
Taille du jeu~100 tâches (Terminal-Bench-Core v0.1.x)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Sonnet 4.5Anthropic50,0 %29 septembre 2025Auto-déclaré
2MiniMax M2.1MiniMax47,9 %23 décembre 2025Auto-déclaré
3Kimi K2 0905Moonshot AI47,1 %5 septembre 2025Auto-déclaré
4MiniMax M2MiniMax46,3 %27 octobre 2025Auto-déclaré
5Claude Opus 4.1Anthropic43,3 %5 août 2025Auto-déclaré
6Nova 2 ProAmazon41,3 %2 décembre 2025Auto-déclaré
7Claude Haiku 4.5Anthropic41,0 %15 octobre 2025Auto-déclaré
8GLM-4.6Zhipu AI40,5 %30 septembre 2025Auto-déclaré
9LongCat-Flash-ChatMeituan39,5 %29 août 2025Auto-déclaré
10Claude Opus 4Anthropic39,2 %22 mai 2025Auto-déclaré
11DeepSeek-V3.2-ExpDeepSeek37,7 %29 septembre 2025Auto-déclaré
12GLM-4.5Zhipu AI37,5 %28 juillet 2025Auto-déclaré
13Claude Sonnet 4Anthropic35,5 %22 mai 2025Auto-déclaré
14Claude 3.7 SonnetAnthropic35,2 %24 février 2025Auto-déclaré
15LongCat-Flash-LiteMeituan33,8 %5 février 2026Auto-déclaré
16GLM-4.7Zhipu AI33,3 %22 décembre 2025Auto-déclaré
17Nova 2 LiteAmazon32,5 %2 décembre 2025Auto-déclaré
18DeepSeek-V3.1DeepSeek31,3 %10 janvier 2025Auto-déclaré
19MiMo-V2-FlashXiaomi30,5 %16 décembre 2025Auto-déclaré
20GLM-4.5-AirZhipu AI30,0 %28 juillet 2025Auto-déclaré

Classement établi sur 25 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 35,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Terminal-Bench indique qu’un agent parvient à mener à terme des tâches terminal complètes, avec une validation binaire par scripts de test propres à chaque tâche. Cette approche apporte une mesure concrète de réussite ou d’échec, plus proche d’un environnement de travail logiciel que de questionnaires statiques. Le classement montre toutefois un niveau encore modéré : dans la base considérée, le meilleur modèle, Claude Sonnet 4.5, atteint 50 %, tandis que le score médian est de 36 %, ce qui suggère que ces tâches restent difficiles et que le benchmark n’apparaît pas saturé à ce stade. La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité de l’évaluation. Les limites tiennent aussi à la taille du jeu Terminal-Bench-Core v0.1.x, à son périmètre centré sur l’anglais et Linux/CLI, ainsi qu’au risque de contamination associé à un accès public.


Sources des scores : llm-stats.