Toolathlon
Toolathlon est un benchmark public conçu par HKUST-NLP, le groupe NLP de la Hong Kong University of Science and Technology. Il évalue des agents d’IA dans leur capacité à utiliser plusieurs outils au fil de tâches longues, réalistes et diversifiées, avec des scénarios couvrant plusieurs…
Toolathlon est un benchmark public conçu par HKUST-NLP, le groupe NLP de la Hong Kong University of Science and Technology. Il évalue des agents d’IA dans leur capacité à utiliser plusieurs outils au fil de tâches longues, réalistes et diversifiées, avec des scénarios couvrant plusieurs applications.
Le benchmark met l’accent sur la sélection d’outils, leur enchaînement et leur exécution, ainsi que sur le suivi des erreurs d’appel et la gestion d’un contexte long. Son rôle est de tester des modèles au-delà de la réponse textuelle classique, dans des situations proches d’un usage agentique.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | HKUST-NLP (Hong Kong University of Science and Technology, NLP Group) |
| Capacités mesurées | Sélection, enchaînement et exécution d'outils multiples sur des tâches longues et diverses ; suivi des erreurs d'appel d'outils et modélisation de contexte long. |
| Modalité | Texte |
| Type de questions | Tâches agentiques d'utilisation d'outils, réalistes et à long horizon (multi-applications, ~20 tours) |
| Métrique d'évaluation | Taux de succès basé sur l'exécution (execution-based) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 108 tâches couvrant 32 applications et ~604 outils |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.8 | Anthropic | 59,9 % | 28 mai 2026 | Auto-déclaré |
| 2 | Gemini 3.5 Flash | 56,5 % | 19 mai 2026 | Auto-déclaré | |
| 3 | GPT-5.5 | OpenAI | 55,6 % | 23 avril 2026 | Auto-déclaré |
| 4 | GPT-5.4 | OpenAI | 54,6 % | 5 mars 2026 | Auto-déclaré |
| 5 | DeepSeek-V4-Pro-Max | DeepSeek | 51,8 % | 23 avril 2026 | Auto-déclaré |
| 6 | Seed 2.1 Pro | bytedance | 50,6 % | 24 juin 2026 | Auto-déclaré |
| 7 | Kimi K2.6 | Moonshot AI | 50,0 % | 20 avril 2026 | Auto-déclaré |
| 8 | Gemini 3 Flash | 49,4 % | 17 décembre 2025 | Auto-déclaré | |
| 9 | Seed 2.1 Turbo | bytedance | 49,1 % | 24 juin 2026 | Auto-déclaré |
| 10 | GLM-5.2 | Zhipu AI | 48,2 % | 16 juin 2026 | Auto-déclaré |
| 11 | DeepSeek-V4-Flash-Max | DeepSeek | 47,8 % | 23 avril 2026 | Auto-déclaré |
| 12 | GPT-5.2 | OpenAI | 46,3 % | 11 décembre 2025 | Auto-déclaré |
| 13 | MiniMax M2.7 | MiniMax | 46,3 % | 18 mars 2026 | Auto-déclaré |
| 14 | MiniMax M2.1 | MiniMax | 43,5 % | 23 décembre 2025 | Auto-déclaré |
| 15 | GPT-5.4 mini | OpenAI | 42,9 % | 17 mars 2026 | Auto-déclaré |
| 16 | GLM-5.1 | Zhipu AI | 40,7 % | 7 avril 2026 | Auto-déclaré |
| 17 | Qwen3.6 Plus | Qwen | 39,8 % | 31 mars 2026 | Auto-déclaré |
| 18 | Qwen3.5-397B-A17B | Qwen | 38,3 % | 16 février 2026 | Auto-déclaré |
| 19 | GPT-5.4 nano | OpenAI | 35,5 % | 17 mars 2026 | Auto-déclaré |
| 20 | DeepSeek-V3.2 | DeepSeek | 35,2 % | 1 décembre 2025 | Auto-déclaré |
Classement établi sur 23 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 46,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Toolathlon indique qu’un modèle parvient plus souvent à mener à terme des tâches longues en choisissant les bons outils, en les appelant dans un ordre pertinent et en exploitant correctement les résultats intermédiaires. La métrique fondée sur l’exécution renforce la rigueur de l’évaluation, car elle juge le succès concret d’une tâche plutôt qu’une simple similarité de réponse. La lecture du classement doit toutefois rester prudente, les scores étant majoritairement auto-déclarés par les éditeurs. Les principales limites tiennent à la portée du benchmark, centré sur l’anglais et l’usage d’outils, ainsi qu’au risque de contamination inhérent à un jeu public. Le niveau observé suggère aussi une marge de progression importante : dans la base, la médiane atteint 46 %, tandis que Claude Opus 4.8 arrive en tête à 60 %. Le classement met donc surtout en évidence la difficulté persistante des tâches agentiques longues, plus qu’une saturation du benchmark.
Sources des scores : llm-stats.