Terminal-Bench
Terminal-Bench est un benchmark conçu pour tester des agents d’IA dans de véritables environnements de terminal. Créé par Stanford University, Laude Institute et la communauté Terminal-Bench, il se concentre sur des tâches end-to-end en ligne de commande, exécutées dans des…
Terminal-Bench est un benchmark conçu pour tester des agents d’IA dans de véritables environnements de terminal. Créé par Stanford University, Laude Institute et la communauté Terminal-Bench, il se concentre sur des tâches end-to-end en ligne de commande, exécutées dans des environnements Docker isolés.
Son intérêt est d’évaluer la capacité d’un modèle à agir de façon autonome sur des problèmes proches d’un usage réel : compiler du code, entraîner des modèles, configurer des serveurs, administrer un système ou déboguer. Il sert ainsi de repère pour mesurer des compétences opérationnelles au-delà de la simple génération de texte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Stanford University et Laude Institute (+ communauté Terminal-Bench) |
| Capacités mesurées | Exécution autonome de tâches terminal réelles : compilation de code, entraînement de modèles, configuration de serveurs, administration système et débogage. |
| Modalité | Texte |
| Type de questions | Tâches end-to-end en ligne de commande pour agents (environnements Docker isolés) |
| Métrique d'évaluation | Scripts de test de vérification par tâche (réussite/échec), taux de succès |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais (+ environnements Linux/CLI) |
| Taille du jeu | ~100 tâches (Terminal-Bench-Core v0.1.x) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Sonnet 4.5 | Anthropic | 50,0 % | 29 septembre 2025 | Auto-déclaré |
| 2 | MiniMax M2.1 | MiniMax | 47,9 % | 23 décembre 2025 | Auto-déclaré |
| 3 | Kimi K2 0905 | Moonshot AI | 47,1 % | 5 septembre 2025 | Auto-déclaré |
| 4 | MiniMax M2 | MiniMax | 46,3 % | 27 octobre 2025 | Auto-déclaré |
| 5 | Claude Opus 4.1 | Anthropic | 43,3 % | 5 août 2025 | Auto-déclaré |
| 6 | Nova 2 Pro | Amazon | 41,3 % | 2 décembre 2025 | Auto-déclaré |
| 7 | Claude Haiku 4.5 | Anthropic | 41,0 % | 15 octobre 2025 | Auto-déclaré |
| 8 | GLM-4.6 | Zhipu AI | 40,5 % | 30 septembre 2025 | Auto-déclaré |
| 9 | LongCat-Flash-Chat | Meituan | 39,5 % | 29 août 2025 | Auto-déclaré |
| 10 | Claude Opus 4 | Anthropic | 39,2 % | 22 mai 2025 | Auto-déclaré |
| 11 | DeepSeek-V3.2-Exp | DeepSeek | 37,7 % | 29 septembre 2025 | Auto-déclaré |
| 12 | GLM-4.5 | Zhipu AI | 37,5 % | 28 juillet 2025 | Auto-déclaré |
| 13 | Claude Sonnet 4 | Anthropic | 35,5 % | 22 mai 2025 | Auto-déclaré |
| 14 | Claude 3.7 Sonnet | Anthropic | 35,2 % | 24 février 2025 | Auto-déclaré |
| 15 | LongCat-Flash-Lite | Meituan | 33,8 % | 5 février 2026 | Auto-déclaré |
| 16 | GLM-4.7 | Zhipu AI | 33,3 % | 22 décembre 2025 | Auto-déclaré |
| 17 | Nova 2 Lite | Amazon | 32,5 % | 2 décembre 2025 | Auto-déclaré |
| 18 | DeepSeek-V3.1 | DeepSeek | 31,3 % | 10 janvier 2025 | Auto-déclaré |
| 19 | MiMo-V2-Flash | Xiaomi | 30,5 % | 16 décembre 2025 | Auto-déclaré |
| 20 | GLM-4.5-Air | Zhipu AI | 30,0 % | 28 juillet 2025 | Auto-déclaré |
Classement établi sur 25 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 35,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Terminal-Bench indique qu’un agent parvient à mener à terme des tâches terminal complètes, avec une validation binaire par scripts de test propres à chaque tâche. Cette approche apporte une mesure concrète de réussite ou d’échec, plus proche d’un environnement de travail logiciel que de questionnaires statiques. Le classement montre toutefois un niveau encore modéré : dans la base considérée, le meilleur modèle, Claude Sonnet 4.5, atteint 50 %, tandis que le score médian est de 36 %, ce qui suggère que ces tâches restent difficiles et que le benchmark n’apparaît pas saturé à ce stade. La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité de l’évaluation. Les limites tiennent aussi à la taille du jeu Terminal-Bench-Core v0.1.x, à son périmètre centré sur l’anglais et Linux/CLI, ainsi qu’au risque de contamination associé à un accès public.
Sources des scores : llm-stats.