MCP-Mark
MCP-Mark est un benchmark public consacré à l’évaluation des modèles de langage dans des tâches agentiques reposant sur le Model Context Protocol. Créé par EVAL SYS (eval-sys), il observe la capacité d’un modèle à découvrir des outils MCP, à choisir le bon outil, à l’invoquer…
MCP-Mark est un benchmark public consacré à l’évaluation des modèles de langage dans des tâches agentiques reposant sur le Model Context Protocol. Créé par EVAL SYS (eval-sys), il observe la capacité d’un modèle à découvrir des outils MCP, à choisir le bon outil, à l’invoquer correctement et à interpréter les résultats obtenus.
Le benchmark s’inscrit dans l’évaluation des usages outillés des LLM, au-delà de la simple réponse textuelle. Il couvre des opérations de type CRUD sur plusieurs environnements MCP, comme Notion, GitHub, Filesystem, PostgreSQL et Playwright, avec une vérification programmatique des tâches.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | EVAL SYS (eval-sys) |
| Capacités mesurées | Utilisation d'outils Model Context Protocol (MCP) : découverte, sélection, invocation et interprétation des résultats; opérations CRUD à travers divers serveurs MCP |
| Modalité | Texte |
| Type de questions | tâches agentiques / appel d'outils MCP avec vérification programmatique |
| Métrique d'évaluation | pass@1, pass^4 |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 127 tâches (Notion, GitHub, Filesystem, PostgreSQL, Playwright) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.7 Code | Moonshot AI | 81,1 % | 12 juin 2026 | Auto-déclaré |
| 2 | Qwen3.7 Max | Qwen | 60,8 % | 19 mai 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 58,7 % | 31 mai 2026 | Auto-déclaré |
| 4 | Kimi K2.6 | Moonshot AI | 55,9 % | 20 avril 2026 | Auto-déclaré |
| 5 | Qwen3.6 Plus | Qwen | 48,2 % | 31 mars 2026 | Auto-déclaré |
| 6 | Qwen3.5-397B-A17B | Qwen | 46,1 % | 16 février 2026 | Auto-déclaré |
| 7 | DeepSeek-V3.2 | DeepSeek | 38,0 % | 1 décembre 2025 | Auto-déclaré |
| 8 | Qwen3.6-35B-A3B | Qwen | 37,0 % | 16 avril 2026 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 52,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MCP-Mark indique qu’un modèle parvient à enchaîner efficacement découverte d’outils, sélection, appel et exploitation des résultats dans des scénarios MCP variés. Le classement disponible dans la base porte sur un nombre limité de modèles évalués, avec une médiane à 52% et un meilleur score atteint par Kimi K2.7 Code (Moonshot AI) à 81%, ce qui suggère un écart notable entre les systèmes les plus performants et le niveau central de l’échantillon. La lecture doit toutefois rester prudente, car la fiabilité des scores est majoritairement fondée sur des résultats auto-déclarés par les éditeurs plutôt que sur une mesure entièrement indépendante. Les limites concernent aussi la portée du benchmark, centrée sur des serveurs MCP précis et des tâches en anglais, ainsi que les risques classiques de saturation ou de contamination à mesure que le test devient connu. MCP-Mark reste surtout utile pour comparer la maîtrise pratique de l’appel d’outils MCP, pas pour résumer l’ensemble des capacités d’un modèle.
Sources des scores : llm-stats.