Terminal-Bench 2.0
Terminal-Bench 2.0 est un benchmark public consacré aux agents d’IA capables d’opérer un ordinateur via une interface terminal. Créé par le Laude Institute et Stanford University, avec l’équipe Terminal-Bench, il met l’accent sur des tâches réalistes menées de bout en bout en ligne de…
Terminal-Bench 2.0 est un benchmark public consacré aux agents d’IA capables d’opérer un ordinateur via une interface terminal. Créé par le Laude Institute et Stanford University, avec l’équipe Terminal-Bench, il met l’accent sur des tâches réalistes menées de bout en bout en ligne de commande.
Le benchmark mesure l’autonomie pratique des modèles face à des environnements de code dockerisés, avec des scénarios comme la compilation, la configuration de serveurs, l’entraînement de modèles ou l’usage d’outils. Il sert ainsi à évaluer une dimension opérationnelle des agents, au-delà de la réponse textuelle classique.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Laude Institute / Stanford University (équipe Terminal-Bench) |
| Capacités mesurées | Agents autonomes en interface terminal : tâches réalistes de bout en bout (compilation de code, configuration de serveurs, entraînement de modèles, usage d'outils). |
| Modalité | Texte |
| Type de questions | Tâches agentiques de bout en bout en terminal (ligne de commande) |
| Métrique d'évaluation | Taux de réussite des tâches (vérification par tests pytest) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | Anglais (+ environnements de code Dockerisés) |
| Taille du jeu | 89 tâches (Terminal-Bench 2.0) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | 82,7 % | 23 avril 2026 | Auto-déclaré |
| 2 | Claude Mythos Preview | Anthropic | 82,0 % | — | Auto-déclaré |
| 3 | GPT-5.3 Codex | OpenAI | 77,3 % | 5 février 2026 | Auto-déclaré |
| 4 | Gemini 3.5 Flash | 76,2 % | 19 mai 2026 | Auto-déclaré | |
| 5 | GPT-5.4 | OpenAI | 75,1 % | 5 mars 2026 | Auto-déclaré |
| 6 | Claude Opus 4.8 | Anthropic | 74,6 % | 28 mai 2026 | Auto-déclaré |
| 7 | Qwen3.7-Plus | Qwen | 70,3 % | 31 mai 2026 | Auto-déclaré |
| 8 | Qwen3.7 Max | Qwen | 69,7 % | 19 mai 2026 | Auto-déclaré |
| 9 | Claude Opus 4.7 | Anthropic | 69,4 % | 12 mai 2026 | Auto-déclaré |
| 10 | GLM-5.1 | Zhipu AI | 69,0 % | 7 avril 2026 | Auto-déclaré |
| 11 | Gemini 3.1 Pro Preview | 68,5 % | 19 février 2026 | Auto-déclaré | |
| 12 | MiMo-V2.5-Pro | Xiaomi | 68,4 % | 27 avril 2026 | Auto-déclaré |
| 13 | DeepSeek-V4-Pro-Max | DeepSeek | 67,9 % | 23 avril 2026 | Auto-déclaré |
| 14 | Kimi K2.6 | Moonshot AI | 66,7 % | 20 avril 2026 | Auto-déclaré |
| 15 | MiMo-V2.5 | Xiaomi | 65,8 % | 22 avril 2026 | Auto-déclaré |
| 16 | Claude Opus 4.6 | Anthropic | 65,4 % | 7 avril 2026 | Auto-déclaré |
| 17 | GPT-5.2 Codex | OpenAI | 64,0 % | 14 janvier 2026 | Auto-déclaré |
| 18 | Qwen3.6 Plus | Qwen | 61,6 % | 31 mars 2026 | Auto-déclaré |
| 19 | GPT-5.4 mini | OpenAI | 60,0 % | 17 mars 2026 | Auto-déclaré |
| 20 | Claude Opus 4.5 | Anthropic | 59,3 % | 24 novembre 2025 | Auto-déclaré |
Classement établi sur 48 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 57,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Terminal-Bench 2.0 indique qu’un modèle parvient plus souvent à mener à terme des tâches terminal complexes, avec une validation par tests pytest. La métrique favorise donc les systèmes capables de planifier, d’exécuter des commandes, de corriger des erreurs et de produire un état final vérifiable. Dans la base, le meilleur résultat observé est celui de GPT-5.5 (OpenAI), à 83 %, tandis que la médiane de l’ensemble atteint 57 %, ce qui suggère une différenciation encore nette entre modèles sur ce type d’usage agentique.
- Rigueur : l’évaluation repose sur des tests automatisés, mais les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement.
- Limites : le benchmark couvre surtout des tâches en terminal et des environnements de code dockerisés. Il ne résume donc pas toutes les capacités d’un modèle, notamment hors ligne de commande.
- Interprétation : comme pour tout benchmark public, la progression des scores peut refléter à la fois de meilleures capacités d’agent et une adaptation croissante aux formats testés.
Sources des scores : llm-stats.