Code & programmation

Terminal-Bench 2.0

Terminal-Bench 2.0 est un benchmark public consacré aux agents d’IA capables d’opérer un ordinateur via une interface terminal. Créé par le Laude Institute et Stanford University, avec l’équipe Terminal-Bench, il met l’accent sur des tâches réalistes menées de bout en bout en ligne de…

Le benchmark mesure l’autonomie pratique des modèles face à des environnements de code dockerisés, avec des scénarios comme la compilation, la configuration de serveurs, l’entraînement de modèles ou l’usage d’outils. Il sert ainsi à évaluer une dimension opérationnelle des agents, au-delà de la réponse textuelle classique.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Laude Institute / Stanford University (équipe Terminal-Bench)
Capacités mesurées	Agents autonomes en interface terminal : tâches réalistes de bout en bout (compilation de code, configuration de serveurs, entraînement de modèles, usage d'outils).
Modalité	Texte
Type de questions	Tâches agentiques de bout en bout en terminal (ligne de commande)
Métrique d'évaluation	Taux de réussite des tâches (vérification par tests pytest)
Accès	Public
Licence	Apache-2.0
Langues	Anglais (+ environnements de code Dockerisés)
Taille du jeu	89 tâches (Terminal-Bench 2.0)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5	OpenAI	82,7 %	23 avril 2026	Auto-déclaré
2	Claude Mythos Preview	Anthropic	82,0 %	—	Auto-déclaré
3	GPT-5.3 Codex	OpenAI	77,3 %	5 février 2026	Auto-déclaré
4	Gemini 3.5 Flash	Google	76,2 %	19 mai 2026	Auto-déclaré
5	GPT-5.4	OpenAI	75,1 %	5 mars 2026	Auto-déclaré
6	Claude Opus 4.8	Anthropic	74,6 %	28 mai 2026	Auto-déclaré
7	Qwen3.7-Plus	Qwen	70,3 %	31 mai 2026	Auto-déclaré
8	Qwen3.7 Max	Qwen	69,7 %	19 mai 2026	Auto-déclaré
9	Claude Opus 4.7	Anthropic	69,4 %	12 mai 2026	Auto-déclaré
10	GLM-5.1	Zhipu AI	69,0 %	7 avril 2026	Auto-déclaré
11	Gemini 3.1 Pro Preview	Google	68,5 %	19 février 2026	Auto-déclaré
12	MiMo-V2.5-Pro	Xiaomi	68,4 %	27 avril 2026	Auto-déclaré
13	DeepSeek-V4-Pro-Max	DeepSeek	67,9 %	23 avril 2026	Auto-déclaré
14	Kimi K2.6	Moonshot AI	66,7 %	20 avril 2026	Auto-déclaré
15	MiMo-V2.5	Xiaomi	65,8 %	22 avril 2026	Auto-déclaré
16	Claude Opus 4.6	Anthropic	65,4 %	7 avril 2026	Auto-déclaré
17	GPT-5.2 Codex	OpenAI	64,0 %	14 janvier 2026	Auto-déclaré
18	Qwen3.6 Plus	Qwen	61,6 %	31 mars 2026	Auto-déclaré
19	GPT-5.4 mini	OpenAI	60,0 %	17 mars 2026	Auto-déclaré
20	Claude Opus 4.5	Anthropic	59,3 %	24 novembre 2025	Auto-déclaré

Classement établi sur 48 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 57,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Terminal-Bench 2.0 indique qu’un modèle parvient plus souvent à mener à terme des tâches terminal complexes, avec une validation par tests pytest. La métrique favorise donc les systèmes capables de planifier, d’exécuter des commandes, de corriger des erreurs et de produire un état final vérifiable. Dans la base, le meilleur résultat observé est celui de GPT-5.5 (OpenAI), à 83 %, tandis que la médiane de l’ensemble atteint 57 %, ce qui suggère une différenciation encore nette entre modèles sur ce type d’usage agentique.

Rigueur : l’évaluation repose sur des tests automatisés, mais les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement.
Limites : le benchmark couvre surtout des tâches en terminal et des environnements de code dockerisés. Il ne résume donc pas toutes les capacités d’un modèle, notamment hors ligne de commande.
Interprétation : comme pour tout benchmark public, la progression des scores peut refléter à la fois de meilleures capacités d’agent et une adaptation croissante aux formats testés.

Sources des scores : llm-stats.

Terminal-Bench 2.0

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench