Code & programmation

Terminal-Bench 2.1

Terminal-Bench 2.1 est un benchmark conçu par Laude Institute et Stanford University pour évaluer des agents IA dans un environnement de terminal. Il porte sur des tâches réelles menées de bout en bout en ligne de commande, comme compiler du code, entraîner des modèles, configurer des…

Son intérêt est de mesurer une compétence opérationnelle souvent peu capturée par les tests classiques: la capacité d’un modèle à utiliser un ordinateur de façon autonome, avec des résultats vérifiés par des tests. Il sert ainsi de repère pour comparer des agents sur des scénarios proches d’usages techniques concrets.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Laude Institute & Stanford University
Capacités mesurées	Capacité des agents IA à opérer un ordinateur via le terminal sur des tâches réelles end-to-end (compiler du code, entraîner des modèles, configurer des serveurs, déboguer).
Modalité	Texte
Type de questions	Agents IA en terminal / tâches end-to-end en ligne de commande
Métrique d'évaluation	Taux de résolution de tâches (tâches vérifiées par tests)
Accès	Public
Licence	Apache-2.0
Langues	anglais
Taille du jeu	89 tâches (la 2.1 corrige 28 des 89 tâches de la 2.0)
Année de publication	2026
Ressources	Site / dépôt officiel

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	84,3 %	9 juin 2026	Auto-déclaré
2	GLM-5.2	Zhipu AI	82,7 %	16 juin 2026	Auto-déclaré
3	Seed 2.1 Pro	bytedance	71,0 %	24 juin 2026	Auto-déclaré
4	Seed 2.1 Turbo	bytedance	67,6 %	24 juin 2026	Auto-déclaré
5	MiniMax M3	MiniMax	66,0 %	1 juin 2026	Auto-déclaré
6	Nemotron 3 Ultra (550B A55B)	NVIDIA	56,4 %	4 juin 2026	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 69,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Terminal-Bench 2.1 indique qu’un agent parvient à résoudre une part importante de tâches terminal vérifiées par tests, ce qui suggère une bonne capacité à planifier, exécuter des commandes, corriger des erreurs et mener des workflows techniques jusqu’au résultat attendu. La mesure est plus concrète que de simples questions-réponses, car elle repose sur des tâches end-to-end en ligne de commande. La lecture du classement doit toutefois rester prudente: les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte avec une évaluation entièrement indépendante. Le jeu reste aussi de taille contenue, avec 89 tâches, et la version 2.1 corrige une partie des tâches de la 2.0, ce qui rappelle l’importance de la qualité des tests. Le meilleur score recensé, Claude Fable 5 à 84%, montre que les meilleurs agents progressent nettement, tandis que le score médian de 69% laisse subsister une marge d’échec significative sur des tâches techniques réelles.

Sources des scores : llm-stats.

Terminal-Bench 2.1

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23