Code & programmation

Terminal-Bench

Terminal-Bench est un benchmark conçu pour tester des agents d’IA dans de véritables environnements de terminal. Créé par Stanford University, Laude Institute et la communauté Terminal-Bench, il se concentre sur des tâches end-to-end en ligne de commande, exécutées dans des…

Son intérêt est d’évaluer la capacité d’un modèle à agir de façon autonome sur des problèmes proches d’un usage réel : compiler du code, entraîner des modèles, configurer des serveurs, administrer un système ou déboguer. Il sert ainsi de repère pour mesurer des compétences opérationnelles au-delà de la simple génération de texte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Stanford University et Laude Institute (+ communauté Terminal-Bench)
Capacités mesurées	Exécution autonome de tâches terminal réelles : compilation de code, entraînement de modèles, configuration de serveurs, administration système et débogage.
Modalité	Texte
Type de questions	Tâches end-to-end en ligne de commande pour agents (environnements Docker isolés)
Métrique d'évaluation	Scripts de test de vérification par tâche (réussite/échec), taux de succès
Accès	Public
Licence	Apache-2.0
Langues	anglais (+ environnements Linux/CLI)
Taille du jeu	~100 tâches (Terminal-Bench-Core v0.1.x)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Sonnet 4.5	Anthropic	50,0 %	29 septembre 2025	Auto-déclaré
2	MiniMax M2.1	MiniMax	47,9 %	23 décembre 2025	Auto-déclaré
3	Kimi K2 0905	Moonshot AI	47,1 %	5 septembre 2025	Auto-déclaré
4	MiniMax M2	MiniMax	46,3 %	27 octobre 2025	Auto-déclaré
5	Claude Opus 4.1	Anthropic	43,3 %	5 août 2025	Auto-déclaré
6	Nova 2 Pro	Amazon	41,3 %	2 décembre 2025	Auto-déclaré
7	Claude Haiku 4.5	Anthropic	41,0 %	15 octobre 2025	Auto-déclaré
8	GLM-4.6	Zhipu AI	40,5 %	30 septembre 2025	Auto-déclaré
9	LongCat-Flash-Chat	Meituan	39,5 %	29 août 2025	Auto-déclaré
10	Claude Opus 4	Anthropic	39,2 %	22 mai 2025	Auto-déclaré
11	DeepSeek-V3.2-Exp	DeepSeek	37,7 %	29 septembre 2025	Auto-déclaré
12	GLM-4.5	Zhipu AI	37,5 %	28 juillet 2025	Auto-déclaré
13	Claude Sonnet 4	Anthropic	35,5 %	22 mai 2025	Auto-déclaré
14	Claude 3.7 Sonnet	Anthropic	35,2 %	24 février 2025	Auto-déclaré
15	LongCat-Flash-Lite	Meituan	33,8 %	5 février 2026	Auto-déclaré
16	GLM-4.7	Zhipu AI	33,3 %	22 décembre 2025	Auto-déclaré
17	Nova 2 Lite	Amazon	32,5 %	2 décembre 2025	Auto-déclaré
18	DeepSeek-V3.1	DeepSeek	31,3 %	10 janvier 2025	Auto-déclaré
19	MiMo-V2-Flash	Xiaomi	30,5 %	16 décembre 2025	Auto-déclaré
20	GLM-4.5-Air	Zhipu AI	30,0 %	28 juillet 2025	Auto-déclaré

Classement établi sur 25 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 35,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Terminal-Bench indique qu’un agent parvient à mener à terme des tâches terminal complètes, avec une validation binaire par scripts de test propres à chaque tâche. Cette approche apporte une mesure concrète de réussite ou d’échec, plus proche d’un environnement de travail logiciel que de questionnaires statiques. Le classement montre toutefois un niveau encore modéré : dans la base considérée, le meilleur modèle, Claude Sonnet 4.5, atteint 50 %, tandis que le score médian est de 36 %, ce qui suggère que ces tâches restent difficiles et que le benchmark n’apparaît pas saturé à ce stade. La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité de l’évaluation. Les limites tiennent aussi à la taille du jeu Terminal-Bench-Core v0.1.x, à son périmètre centré sur l’anglais et Linux/CLI, ainsi qu’au risque de contamination associé à un accès public.

Sources des scores : llm-stats.

Terminal-Bench

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench