MCP Atlas

MCP Atlas est un benchmark public conçu par Scale AI pour évaluer la capacité des modèles d’IA à utiliser des outils à grande échelle. Il cible des tâches agentiques complexes, dans lesquelles un modèle doit coordonner plusieurs serveurs et outils MCP réels pour progresser sur des…

MCP Atlas est un benchmark public conçu par Scale AI pour évaluer la capacité des modèles d’IA à utiliser des outils à grande échelle. Il cible des tâches agentiques complexes, dans lesquelles un modèle doit coordonner plusieurs serveurs et outils MCP réels pour progresser sur des objectifs multi-étapes.

Le benchmark mesure notamment l’usage d’outils, le raisonnement, le comportement d’agent et la coordination multi-outils via le protocole MCP. Son intérêt est de situer les modèles non seulement sur leur capacité à répondre, mais aussi sur leur aptitude à orchestrer des actions dans des environnements outillés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkScale AI
Capacités mesuréesusage d'outils à l'échelle, agents, raisonnement, coordination multi-outils via le protocole MCP
ModalitéTexte
Type de questionstâches agentiques multi-étapes nécessitant la coordination de plusieurs serveurs/outils MCP réels
Métrique d'évaluationtaux de réussite (pass rate) et taux de couverture (coverage rate), jugé par LLM-as-judge (Gemini 2.5 Pro par défaut, seuil 0,75)
AccèsPublic
Languesanglais
Taille du jeu1000 tâches couvrant 36 serveurs MCP et 307 outils distincts
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance83,8 %24 juin 2026Auto-déclaré
2Gemini 3.5 FlashGoogle83,6 %19 mai 2026Auto-déclaré
3Claude Opus 4.8Anthropic82,2 %28 mai 2026Auto-déclaré
4Seed 2.1 Turbobytedance80,3 %24 juin 2026Auto-déclaré
5Claude Opus 4.7Anthropic77,3 %12 mai 2026Auto-déclaré
6GLM-5.2Zhipu AI76,8 %16 juin 2026Auto-déclaré
7Qwen3.7 MaxQwen76,4 %19 mai 2026Auto-déclaré
8Kimi K2.7 CodeMoonshot AI76,0 %12 juin 2026Auto-déclaré
9GPT-5.5OpenAI75,3 %23 avril 2026Auto-déclaré
10MiniMax M3MiniMax74,2 %1 juin 2026Auto-déclaré
11Qwen3.6 PlusQwen74,1 %31 mars 2026Auto-déclaré
12DeepSeek-V4-Pro-MaxDeepSeek73,6 %23 avril 2026Auto-déclaré
13Qwen3.7-PlusQwen73,2 %31 mai 2026Auto-déclaré
14GLM-5.1Zhipu AI71,8 %7 avril 2026Auto-déclaré
15Gemini 3.1 Pro PreviewGoogle69,2 %19 février 2026Auto-déclaré
16DeepSeek-V4-Flash-MaxDeepSeek69,0 %23 avril 2026Auto-déclaré
17GLM-5Zhipu AI67,8 %11 février 2026Auto-déclaré
18GPT-5.4OpenAI67,2 %5 mars 2026Auto-déclaré
19Qwen3.6-35B-A3BQwen62,8 %16 avril 2026Auto-déclaré
20Claude Opus 4.6Anthropic62,7 %7 avril 2026Auto-déclaré

Classement établi sur 27 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 71,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MCP Atlas indique qu’un modèle parvient plus souvent à mener à bien des tâches nécessitant la sélection, l’enchaînement et la coordination de plusieurs outils MCP. La métrique combine un taux de réussite et un taux de couverture, avec une évaluation par LLM-as-judge, Gemini 2.5 Pro étant utilisé par défaut avec un seuil de 0,75. Cette approche permet de juger des sorties complexes, mais elle introduit une dépendance au juge automatique et à ses critères. La fiabilité du classement doit aussi être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites portent sur la portée linguistique, centrée sur l’anglais, le risque de contamination propre aux benchmarks publics, et une possible saturation si les meilleurs modèles convergent vers des performances proches. Dans la base, l’écart entre la médiane à 72 % et Seed 2.1 Pro à 84 % suggère un benchmark encore discriminant, en particulier pour les capacités d’orchestration agentique à grande échelle.


Sources des scores : llm-stats.