Agents & outils

Toolathlon

Toolathlon est un benchmark public conçu par HKUST-NLP, le groupe NLP de la Hong Kong University of Science and Technology. Il évalue des agents d’IA dans leur capacité à utiliser plusieurs outils au fil de tâches longues, réalistes et diversifiées, avec des scénarios couvrant plusieurs…

Le benchmark met l’accent sur la sélection d’outils, leur enchaînement et leur exécution, ainsi que sur le suivi des erreurs d’appel et la gestion d’un contexte long. Son rôle est de tester des modèles au-delà de la réponse textuelle classique, dans des situations proches d’un usage agentique.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	HKUST-NLP (Hong Kong University of Science and Technology, NLP Group)
Capacités mesurées	Sélection, enchaînement et exécution d'outils multiples sur des tâches longues et diverses ; suivi des erreurs d'appel d'outils et modélisation de contexte long.
Modalité	Texte
Type de questions	Tâches agentiques d'utilisation d'outils, réalistes et à long horizon (multi-applications, ~20 tours)
Métrique d'évaluation	Taux de succès basé sur l'exécution (execution-based)
Accès	Public
Langues	anglais
Taille du jeu	108 tâches couvrant 32 applications et ~604 outils
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.8	Anthropic	59,9 %	28 mai 2026	Auto-déclaré
2	Gemini 3.5 Flash	Google	56,5 %	19 mai 2026	Auto-déclaré
3	GPT-5.5	OpenAI	55,6 %	23 avril 2026	Auto-déclaré
4	GPT-5.4	OpenAI	54,6 %	5 mars 2026	Auto-déclaré
5	DeepSeek-V4-Pro-Max	DeepSeek	51,8 %	23 avril 2026	Auto-déclaré
6	Seed 2.1 Pro	bytedance	50,6 %	24 juin 2026	Auto-déclaré
7	Kimi K2.6	Moonshot AI	50,0 %	20 avril 2026	Auto-déclaré
8	Gemini 3 Flash	Google	49,4 %	17 décembre 2025	Auto-déclaré
9	Seed 2.1 Turbo	bytedance	49,1 %	24 juin 2026	Auto-déclaré
10	GLM-5.2	Zhipu AI	48,2 %	16 juin 2026	Auto-déclaré
11	DeepSeek-V4-Flash-Max	DeepSeek	47,8 %	23 avril 2026	Auto-déclaré
12	GPT-5.2	OpenAI	46,3 %	11 décembre 2025	Auto-déclaré
13	MiniMax M2.7	MiniMax	46,3 %	18 mars 2026	Auto-déclaré
14	MiniMax M2.1	MiniMax	43,5 %	23 décembre 2025	Auto-déclaré
15	GPT-5.4 mini	OpenAI	42,9 %	17 mars 2026	Auto-déclaré
16	GLM-5.1	Zhipu AI	40,7 %	7 avril 2026	Auto-déclaré
17	Qwen3.6 Plus	Qwen	39,8 %	31 mars 2026	Auto-déclaré
18	Qwen3.5-397B-A17B	Qwen	38,3 %	16 février 2026	Auto-déclaré
19	GPT-5.4 nano	OpenAI	35,5 %	17 mars 2026	Auto-déclaré
20	DeepSeek-V3.2	DeepSeek	35,2 %	1 décembre 2025	Auto-déclaré

Classement établi sur 23 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 46,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Toolathlon indique qu’un modèle parvient plus souvent à mener à terme des tâches longues en choisissant les bons outils, en les appelant dans un ordre pertinent et en exploitant correctement les résultats intermédiaires. La métrique fondée sur l’exécution renforce la rigueur de l’évaluation, car elle juge le succès concret d’une tâche plutôt qu’une simple similarité de réponse. La lecture du classement doit toutefois rester prudente, les scores étant majoritairement auto-déclarés par les éditeurs. Les principales limites tiennent à la portée du benchmark, centré sur l’anglais et l’usage d’outils, ainsi qu’au risque de contamination inhérent à un jeu public. Le niveau observé suggère aussi une marge de progression importante : dans la base, la médiane atteint 46 %, tandis que Claude Opus 4.8 arrive en tête à 60 %. Le classement met donc surtout en évidence la difficulté persistante des tâches agentiques longues, plus qu’une saturation du benchmark.

Sources des scores : llm-stats.

Toolathlon

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23