MCP Atlas
MCP Atlas est un benchmark public conçu par Scale AI pour évaluer la capacité des modèles d’IA à utiliser des outils à grande échelle. Il cible des tâches agentiques complexes, dans lesquelles un modèle doit coordonner plusieurs serveurs et outils MCP réels pour progresser sur des…
MCP Atlas est un benchmark public conçu par Scale AI pour évaluer la capacité des modèles d’IA à utiliser des outils à grande échelle. Il cible des tâches agentiques complexes, dans lesquelles un modèle doit coordonner plusieurs serveurs et outils MCP réels pour progresser sur des objectifs multi-étapes.
Le benchmark mesure notamment l’usage d’outils, le raisonnement, le comportement d’agent et la coordination multi-outils via le protocole MCP. Son intérêt est de situer les modèles non seulement sur leur capacité à répondre, mais aussi sur leur aptitude à orchestrer des actions dans des environnements outillés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Scale AI |
| Capacités mesurées | usage d'outils à l'échelle, agents, raisonnement, coordination multi-outils via le protocole MCP |
| Modalité | Texte |
| Type de questions | tâches agentiques multi-étapes nécessitant la coordination de plusieurs serveurs/outils MCP réels |
| Métrique d'évaluation | taux de réussite (pass rate) et taux de couverture (coverage rate), jugé par LLM-as-judge (Gemini 2.5 Pro par défaut, seuil 0,75) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1000 tâches couvrant 36 serveurs MCP et 307 outils distincts |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 83,8 % | 24 juin 2026 | Auto-déclaré |
| 2 | Gemini 3.5 Flash | 83,6 % | 19 mai 2026 | Auto-déclaré | |
| 3 | Claude Opus 4.8 | Anthropic | 82,2 % | 28 mai 2026 | Auto-déclaré |
| 4 | Seed 2.1 Turbo | bytedance | 80,3 % | 24 juin 2026 | Auto-déclaré |
| 5 | Claude Opus 4.7 | Anthropic | 77,3 % | 12 mai 2026 | Auto-déclaré |
| 6 | GLM-5.2 | Zhipu AI | 76,8 % | 16 juin 2026 | Auto-déclaré |
| 7 | Qwen3.7 Max | Qwen | 76,4 % | 19 mai 2026 | Auto-déclaré |
| 8 | Kimi K2.7 Code | Moonshot AI | 76,0 % | 12 juin 2026 | Auto-déclaré |
| 9 | GPT-5.5 | OpenAI | 75,3 % | 23 avril 2026 | Auto-déclaré |
| 10 | MiniMax M3 | MiniMax | 74,2 % | 1 juin 2026 | Auto-déclaré |
| 11 | Qwen3.6 Plus | Qwen | 74,1 % | 31 mars 2026 | Auto-déclaré |
| 12 | DeepSeek-V4-Pro-Max | DeepSeek | 73,6 % | 23 avril 2026 | Auto-déclaré |
| 13 | Qwen3.7-Plus | Qwen | 73,2 % | 31 mai 2026 | Auto-déclaré |
| 14 | GLM-5.1 | Zhipu AI | 71,8 % | 7 avril 2026 | Auto-déclaré |
| 15 | Gemini 3.1 Pro Preview | 69,2 % | 19 février 2026 | Auto-déclaré | |
| 16 | DeepSeek-V4-Flash-Max | DeepSeek | 69,0 % | 23 avril 2026 | Auto-déclaré |
| 17 | GLM-5 | Zhipu AI | 67,8 % | 11 février 2026 | Auto-déclaré |
| 18 | GPT-5.4 | OpenAI | 67,2 % | 5 mars 2026 | Auto-déclaré |
| 19 | Qwen3.6-35B-A3B | Qwen | 62,8 % | 16 avril 2026 | Auto-déclaré |
| 20 | Claude Opus 4.6 | Anthropic | 62,7 % | 7 avril 2026 | Auto-déclaré |
Classement établi sur 27 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 71,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MCP Atlas indique qu’un modèle parvient plus souvent à mener à bien des tâches nécessitant la sélection, l’enchaînement et la coordination de plusieurs outils MCP. La métrique combine un taux de réussite et un taux de couverture, avec une évaluation par LLM-as-judge, Gemini 2.5 Pro étant utilisé par défaut avec un seuil de 0,75. Cette approche permet de juger des sorties complexes, mais elle introduit une dépendance au juge automatique et à ses critères. La fiabilité du classement doit aussi être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites portent sur la portée linguistique, centrée sur l’anglais, le risque de contamination propre aux benchmarks publics, et une possible saturation si les meilleurs modèles convergent vers des performances proches. Dans la base, l’écart entre la médiane à 72 % et Seed 2.1 Pro à 84 % suggère un benchmark encore discriminant, en particulier pour les capacités d’orchestration agentique à grande échelle.
Sources des scores : llm-stats.