Toolathlon

Toolathlon est un benchmark public conçu par HKUST-NLP, le groupe NLP de la Hong Kong University of Science and Technology. Il évalue des agents d’IA dans leur capacité à utiliser plusieurs outils au fil de tâches longues, réalistes et diversifiées, avec des scénarios couvrant plusieurs…

Toolathlon est un benchmark public conçu par HKUST-NLP, le groupe NLP de la Hong Kong University of Science and Technology. Il évalue des agents d’IA dans leur capacité à utiliser plusieurs outils au fil de tâches longues, réalistes et diversifiées, avec des scénarios couvrant plusieurs applications.

Le benchmark met l’accent sur la sélection d’outils, leur enchaînement et leur exécution, ainsi que sur le suivi des erreurs d’appel et la gestion d’un contexte long. Son rôle est de tester des modèles au-delà de la réponse textuelle classique, dans des situations proches d’un usage agentique.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkHKUST-NLP (Hong Kong University of Science and Technology, NLP Group)
Capacités mesuréesSélection, enchaînement et exécution d'outils multiples sur des tâches longues et diverses ; suivi des erreurs d'appel d'outils et modélisation de contexte long.
ModalitéTexte
Type de questionsTâches agentiques d'utilisation d'outils, réalistes et à long horizon (multi-applications, ~20 tours)
Métrique d'évaluationTaux de succès basé sur l'exécution (execution-based)
AccèsPublic
Languesanglais
Taille du jeu108 tâches couvrant 32 applications et ~604 outils
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.8Anthropic59,9 %28 mai 2026Auto-déclaré
2Gemini 3.5 FlashGoogle56,5 %19 mai 2026Auto-déclaré
3GPT-5.5OpenAI55,6 %23 avril 2026Auto-déclaré
4GPT-5.4OpenAI54,6 %5 mars 2026Auto-déclaré
5DeepSeek-V4-Pro-MaxDeepSeek51,8 %23 avril 2026Auto-déclaré
6Seed 2.1 Probytedance50,6 %24 juin 2026Auto-déclaré
7Kimi K2.6Moonshot AI50,0 %20 avril 2026Auto-déclaré
8Gemini 3 FlashGoogle49,4 %17 décembre 2025Auto-déclaré
9Seed 2.1 Turbobytedance49,1 %24 juin 2026Auto-déclaré
10GLM-5.2Zhipu AI48,2 %16 juin 2026Auto-déclaré
11DeepSeek-V4-Flash-MaxDeepSeek47,8 %23 avril 2026Auto-déclaré
12GPT-5.2OpenAI46,3 %11 décembre 2025Auto-déclaré
13MiniMax M2.7MiniMax46,3 %18 mars 2026Auto-déclaré
14MiniMax M2.1MiniMax43,5 %23 décembre 2025Auto-déclaré
15GPT-5.4 miniOpenAI42,9 %17 mars 2026Auto-déclaré
16GLM-5.1Zhipu AI40,7 %7 avril 2026Auto-déclaré
17Qwen3.6 PlusQwen39,8 %31 mars 2026Auto-déclaré
18Qwen3.5-397B-A17BQwen38,3 %16 février 2026Auto-déclaré
19GPT-5.4 nanoOpenAI35,5 %17 mars 2026Auto-déclaré
20DeepSeek-V3.2DeepSeek35,2 %1 décembre 2025Auto-déclaré

Classement établi sur 23 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 46,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Toolathlon indique qu’un modèle parvient plus souvent à mener à terme des tâches longues en choisissant les bons outils, en les appelant dans un ordre pertinent et en exploitant correctement les résultats intermédiaires. La métrique fondée sur l’exécution renforce la rigueur de l’évaluation, car elle juge le succès concret d’une tâche plutôt qu’une simple similarité de réponse. La lecture du classement doit toutefois rester prudente, les scores étant majoritairement auto-déclarés par les éditeurs. Les principales limites tiennent à la portée du benchmark, centré sur l’anglais et l’usage d’outils, ainsi qu’au risque de contamination inhérent à un jeu public. Le niveau observé suggère aussi une marge de progression importante : dans la base, la médiane atteint 46 %, tandis que Claude Opus 4.8 arrive en tête à 60 %. Le classement met donc surtout en évidence la difficulté persistante des tâches agentiques longues, plus qu’une saturation du benchmark.


Sources des scores : llm-stats.