Agents & outils

MCP-Mark

MCP-Mark est un benchmark public consacré à l’évaluation des modèles de langage dans des tâches agentiques reposant sur le Model Context Protocol. Créé par EVAL SYS (eval-sys), il observe la capacité d’un modèle à découvrir des outils MCP, à choisir le bon outil, à l’invoquer…

Le benchmark s’inscrit dans l’évaluation des usages outillés des LLM, au-delà de la simple réponse textuelle. Il couvre des opérations de type CRUD sur plusieurs environnements MCP, comme Notion, GitHub, Filesystem, PostgreSQL et Playwright, avec une vérification programmatique des tâches.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	EVAL SYS (eval-sys)
Capacités mesurées	Utilisation d'outils Model Context Protocol (MCP) : découverte, sélection, invocation et interprétation des résultats; opérations CRUD à travers divers serveurs MCP
Modalité	Texte
Type de questions	tâches agentiques / appel d'outils MCP avec vérification programmatique
Métrique d'évaluation	pass@1, pass^4
Accès	Public
Langues	anglais
Taille du jeu	127 tâches (Notion, GitHub, Filesystem, PostgreSQL, Playwright)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.7 Code	Moonshot AI	81,1 %	12 juin 2026	Auto-déclaré
2	Qwen3.7 Max	Qwen	60,8 %	19 mai 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	58,7 %	31 mai 2026	Auto-déclaré
4	Kimi K2.6	Moonshot AI	55,9 %	20 avril 2026	Auto-déclaré
5	Qwen3.6 Plus	Qwen	48,2 %	31 mars 2026	Auto-déclaré
6	Qwen3.5-397B-A17B	Qwen	46,1 %	16 février 2026	Auto-déclaré
7	DeepSeek-V3.2	DeepSeek	38,0 %	1 décembre 2025	Auto-déclaré
8	Qwen3.6-35B-A3B	Qwen	37,0 %	16 avril 2026	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 52,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MCP-Mark indique qu’un modèle parvient à enchaîner efficacement découverte d’outils, sélection, appel et exploitation des résultats dans des scénarios MCP variés. Le classement disponible dans la base porte sur un nombre limité de modèles évalués, avec une médiane à 52% et un meilleur score atteint par Kimi K2.7 Code (Moonshot AI) à 81%, ce qui suggère un écart notable entre les systèmes les plus performants et le niveau central de l’échantillon. La lecture doit toutefois rester prudente, car la fiabilité des scores est majoritairement fondée sur des résultats auto-déclarés par les éditeurs plutôt que sur une mesure entièrement indépendante. Les limites concernent aussi la portée du benchmark, centrée sur des serveurs MCP précis et des tâches en anglais, ainsi que les risques classiques de saturation ou de contamination à mesure que le test devient connu. MCP-Mark reste surtout utile pour comparer la maîtrise pratique de l’appel d’outils MCP, pas pour résumer l’ensemble des capacités d’un modèle.

Sources des scores : llm-stats.

MCP-Mark

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench