Terminal-Bench 2.0

Terminal-Bench 2.0 est un benchmark public consacré aux agents d’IA capables d’opérer un ordinateur via une interface terminal. Créé par le Laude Institute et Stanford University, avec l’équipe Terminal-Bench, il met l’accent sur des tâches réalistes menées de bout en bout en ligne de…

Terminal-Bench 2.0 est un benchmark public consacré aux agents d’IA capables d’opérer un ordinateur via une interface terminal. Créé par le Laude Institute et Stanford University, avec l’équipe Terminal-Bench, il met l’accent sur des tâches réalistes menées de bout en bout en ligne de commande.

Le benchmark mesure l’autonomie pratique des modèles face à des environnements de code dockerisés, avec des scénarios comme la compilation, la configuration de serveurs, l’entraînement de modèles ou l’usage d’outils. Il sert ainsi à évaluer une dimension opérationnelle des agents, au-delà de la réponse textuelle classique.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLaude Institute / Stanford University (équipe Terminal-Bench)
Capacités mesuréesAgents autonomes en interface terminal : tâches réalistes de bout en bout (compilation de code, configuration de serveurs, entraînement de modèles, usage d'outils).
ModalitéTexte
Type de questionsTâches agentiques de bout en bout en terminal (ligne de commande)
Métrique d'évaluationTaux de réussite des tâches (vérification par tests pytest)
AccèsPublic
LicenceApache-2.0
LanguesAnglais (+ environnements de code Dockerisés)
Taille du jeu89 tâches (Terminal-Bench 2.0)
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5OpenAI82,7 %23 avril 2026Auto-déclaré
2Claude Mythos PreviewAnthropic82,0 %Auto-déclaré
3GPT-5.3 CodexOpenAI77,3 %5 février 2026Auto-déclaré
4Gemini 3.5 FlashGoogle76,2 %19 mai 2026Auto-déclaré
5GPT-5.4OpenAI75,1 %5 mars 2026Auto-déclaré
6Claude Opus 4.8Anthropic74,6 %28 mai 2026Auto-déclaré
7Qwen3.7-PlusQwen70,3 %31 mai 2026Auto-déclaré
8Qwen3.7 MaxQwen69,7 %19 mai 2026Auto-déclaré
9Claude Opus 4.7Anthropic69,4 %12 mai 2026Auto-déclaré
10GLM-5.1Zhipu AI69,0 %7 avril 2026Auto-déclaré
11Gemini 3.1 Pro PreviewGoogle68,5 %19 février 2026Auto-déclaré
12MiMo-V2.5-ProXiaomi68,4 %27 avril 2026Auto-déclaré
13DeepSeek-V4-Pro-MaxDeepSeek67,9 %23 avril 2026Auto-déclaré
14Kimi K2.6Moonshot AI66,7 %20 avril 2026Auto-déclaré
15MiMo-V2.5Xiaomi65,8 %22 avril 2026Auto-déclaré
16Claude Opus 4.6Anthropic65,4 %7 avril 2026Auto-déclaré
17GPT-5.2 CodexOpenAI64,0 %14 janvier 2026Auto-déclaré
18Qwen3.6 PlusQwen61,6 %31 mars 2026Auto-déclaré
19GPT-5.4 miniOpenAI60,0 %17 mars 2026Auto-déclaré
20Claude Opus 4.5Anthropic59,3 %24 novembre 2025Auto-déclaré

Classement établi sur 48 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 57,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Terminal-Bench 2.0 indique qu’un modèle parvient plus souvent à mener à terme des tâches terminal complexes, avec une validation par tests pytest. La métrique favorise donc les systèmes capables de planifier, d’exécuter des commandes, de corriger des erreurs et de produire un état final vérifiable. Dans la base, le meilleur résultat observé est celui de GPT-5.5 (OpenAI), à 83 %, tandis que la médiane de l’ensemble atteint 57 %, ce qui suggère une différenciation encore nette entre modèles sur ce type d’usage agentique.

  • Rigueur : l’évaluation repose sur des tests automatisés, mais les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement.
  • Limites : le benchmark couvre surtout des tâches en terminal et des environnements de code dockerisés. Il ne résume donc pas toutes les capacités d’un modèle, notamment hors ligne de commande.
  • Interprétation : comme pour tout benchmark public, la progression des scores peut refléter à la fois de meilleures capacités d’agent et une adaptation croissante aux formats testés.

Sources des scores : llm-stats.