Code & programmation

MCP Atlas

MCP Atlas est un benchmark public conçu par Scale AI pour évaluer la capacité des modèles d’IA à utiliser des outils à grande échelle. Il cible des tâches agentiques complexes, dans lesquelles un modèle doit coordonner plusieurs serveurs et outils MCP réels pour progresser sur des…

Le benchmark mesure notamment l’usage d’outils, le raisonnement, le comportement d’agent et la coordination multi-outils via le protocole MCP. Son intérêt est de situer les modèles non seulement sur leur capacité à répondre, mais aussi sur leur aptitude à orchestrer des actions dans des environnements outillés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Scale AI
Capacités mesurées	usage d'outils à l'échelle, agents, raisonnement, coordination multi-outils via le protocole MCP
Modalité	Texte
Type de questions	tâches agentiques multi-étapes nécessitant la coordination de plusieurs serveurs/outils MCP réels
Métrique d'évaluation	taux de réussite (pass rate) et taux de couverture (coverage rate), jugé par LLM-as-judge (Gemini 2.5 Pro par défaut, seuil 0,75)
Accès	Public
Langues	anglais
Taille du jeu	1000 tâches couvrant 36 serveurs MCP et 307 outils distincts
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	83,8 %	24 juin 2026	Auto-déclaré
2	Gemini 3.5 Flash	Google	83,6 %	19 mai 2026	Auto-déclaré
3	Claude Opus 4.8	Anthropic	82,2 %	28 mai 2026	Auto-déclaré
4	Seed 2.1 Turbo	bytedance	80,3 %	24 juin 2026	Auto-déclaré
5	Claude Opus 4.7	Anthropic	77,3 %	12 mai 2026	Auto-déclaré
6	GLM-5.2	Zhipu AI	76,8 %	16 juin 2026	Auto-déclaré
7	Qwen3.7 Max	Qwen	76,4 %	19 mai 2026	Auto-déclaré
8	Kimi K2.7 Code	Moonshot AI	76,0 %	12 juin 2026	Auto-déclaré
9	GPT-5.5	OpenAI	75,3 %	23 avril 2026	Auto-déclaré
10	MiniMax M3	MiniMax	74,2 %	1 juin 2026	Auto-déclaré
11	Qwen3.6 Plus	Qwen	74,1 %	31 mars 2026	Auto-déclaré
12	DeepSeek-V4-Pro-Max	DeepSeek	73,6 %	23 avril 2026	Auto-déclaré
13	Qwen3.7-Plus	Qwen	73,2 %	31 mai 2026	Auto-déclaré
14	GLM-5.1	Zhipu AI	71,8 %	7 avril 2026	Auto-déclaré
15	Gemini 3.1 Pro Preview	Google	69,2 %	19 février 2026	Auto-déclaré
16	DeepSeek-V4-Flash-Max	DeepSeek	69,0 %	23 avril 2026	Auto-déclaré
17	GLM-5	Zhipu AI	67,8 %	11 février 2026	Auto-déclaré
18	GPT-5.4	OpenAI	67,2 %	5 mars 2026	Auto-déclaré
19	Qwen3.6-35B-A3B	Qwen	62,8 %	16 avril 2026	Auto-déclaré
20	Claude Opus 4.6	Anthropic	62,7 %	7 avril 2026	Auto-déclaré

Classement établi sur 27 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 71,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MCP Atlas indique qu’un modèle parvient plus souvent à mener à bien des tâches nécessitant la sélection, l’enchaînement et la coordination de plusieurs outils MCP. La métrique combine un taux de réussite et un taux de couverture, avec une évaluation par LLM-as-judge, Gemini 2.5 Pro étant utilisé par défaut avec un seuil de 0,75. Cette approche permet de juger des sorties complexes, mais elle introduit une dépendance au juge automatique et à ses critères. La fiabilité du classement doit aussi être lue avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites portent sur la portée linguistique, centrée sur l’anglais, le risque de contamination propre aux benchmarks publics, et une possible saturation si les meilleurs modèles convergent vers des performances proches. Dans la base, l’écart entre la médiane à 72 % et Seed 2.1 Pro à 84 % suggère un benchmark encore discriminant, en particulier pour les capacités d’orchestration agentique à grande échelle.

Sources des scores : llm-stats.

MCP Atlas

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench