MCP-Mark

MCP-Mark est un benchmark public consacré à l’évaluation des modèles de langage dans des tâches agentiques reposant sur le Model Context Protocol. Créé par EVAL SYS (eval-sys), il observe la capacité d’un modèle à découvrir des outils MCP, à choisir le bon outil, à l’invoquer…

MCP-Mark est un benchmark public consacré à l’évaluation des modèles de langage dans des tâches agentiques reposant sur le Model Context Protocol. Créé par EVAL SYS (eval-sys), il observe la capacité d’un modèle à découvrir des outils MCP, à choisir le bon outil, à l’invoquer correctement et à interpréter les résultats obtenus.

Le benchmark s’inscrit dans l’évaluation des usages outillés des LLM, au-delà de la simple réponse textuelle. Il couvre des opérations de type CRUD sur plusieurs environnements MCP, comme Notion, GitHub, Filesystem, PostgreSQL et Playwright, avec une vérification programmatique des tâches.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkEVAL SYS (eval-sys)
Capacités mesuréesUtilisation d'outils Model Context Protocol (MCP) : découverte, sélection, invocation et interprétation des résultats; opérations CRUD à travers divers serveurs MCP
ModalitéTexte
Type de questionstâches agentiques / appel d'outils MCP avec vérification programmatique
Métrique d'évaluationpass@1, pass^4
AccèsPublic
Languesanglais
Taille du jeu127 tâches (Notion, GitHub, Filesystem, PostgreSQL, Playwright)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.7 CodeMoonshot AI81,1 %12 juin 2026Auto-déclaré
2Qwen3.7 MaxQwen60,8 %19 mai 2026Auto-déclaré
3Qwen3.7-PlusQwen58,7 %31 mai 2026Auto-déclaré
4Kimi K2.6Moonshot AI55,9 %20 avril 2026Auto-déclaré
5Qwen3.6 PlusQwen48,2 %31 mars 2026Auto-déclaré
6Qwen3.5-397B-A17BQwen46,1 %16 février 2026Auto-déclaré
7DeepSeek-V3.2DeepSeek38,0 %1 décembre 2025Auto-déclaré
8Qwen3.6-35B-A3BQwen37,0 %16 avril 2026Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 52,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MCP-Mark indique qu’un modèle parvient à enchaîner efficacement découverte d’outils, sélection, appel et exploitation des résultats dans des scénarios MCP variés. Le classement disponible dans la base porte sur un nombre limité de modèles évalués, avec une médiane à 52% et un meilleur score atteint par Kimi K2.7 Code (Moonshot AI) à 81%, ce qui suggère un écart notable entre les systèmes les plus performants et le niveau central de l’échantillon. La lecture doit toutefois rester prudente, car la fiabilité des scores est majoritairement fondée sur des résultats auto-déclarés par les éditeurs plutôt que sur une mesure entièrement indépendante. Les limites concernent aussi la portée du benchmark, centrée sur des serveurs MCP précis et des tâches en anglais, ainsi que les risques classiques de saturation ou de contamination à mesure que le test devient connu. MCP-Mark reste surtout utile pour comparer la maîtrise pratique de l’appel d’outils MCP, pas pour résumer l’ensemble des capacités d’un modèle.


Sources des scores : llm-stats.