Multi-SWE-Bench

Multi-SWE-Bench est un benchmark public publié en 2025 par ByteDance, via l’équipe Seed / Doubao. Il évalue la capacité des LLM à résoudre des problèmes logiciels réels issus de dépôts GitHub, en générant des correctifs validés par les tests du projet concerné.

Multi-SWE-Bench est un benchmark public publié en 2025 par ByteDance, via l’équipe Seed / Doubao. Il évalue la capacité des LLM à résoudre des problèmes logiciels réels issus de dépôts GitHub, en générant des correctifs validés par les tests du projet concerné.

Son intérêt est d’élargir l’évaluation au-delà du cadre très centré sur Python de SWE-Bench. En couvrant plusieurs écosystèmes de programmation, Multi-SWE-Bench sert à mesurer la robustesse des modèles face à des bases de code, langages et conventions de développement plus variés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkByteDance (equipe Seed / Doubao)
Capacités mesuréesEvalue la capacite des LLM a resoudre des problemes logiciels reels dans des ecosystemes de programmation varies, au-dela du seul Python de SWE-bench.
ModalitéTexte
Type de questionsResolution d'issues logicielles (generation de patch a partir d'un bug GitHub, verifie par tests)
Métrique d'évaluationTaux de resolution (% d'instances resolues, pass@1) verifie via les tests unitaires du depot
AccèsPublic
Langues7 langages de programmation : Java, TypeScript, JavaScript, Go, Rust, C, C++
Taille du jeu1 632 instances (annotees a partir de 2 456 candidats par 68 experts)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1MiniMax M2.7MiniMax52,7 %18 mars 2026Auto-déclaré
2MiniMax M2.5MiniMax51,3 %12 février 2026Auto-déclaré
3MiniMax M2.1MiniMax49,4 %23 décembre 2025Auto-déclaré
4Kimi K2 0905Moonshot AI41,9 %5 septembre 2025Auto-déclaré
5MiniMax M2MiniMax36,2 %27 octobre 2025Auto-déclaré
6Qwen3-Coder 480B A35B InstructQwen25,8 %31 janvier 2025Auto-déclaré

Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 45,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multi-SWE-Bench indique qu’un modèle parvient, en pass@1, à produire un patch qui résout effectivement une issue logicielle et fait passer les tests unitaires associés. Le signal est donc proche d’un usage concret du codage agentique, car la réussite ne repose pas sur une réponse textuelle jugée abstraitement, mais sur l’exécution de tests dans le dépôt.

La rigueur du benchmark tient à la sélection d’instances de qualité et à une vérification par tests, mais l’interprétation des résultats reste prudente : dans la base, les scores sont majoritairement auto-déclarés par les éditeurs. Les limites classiques demeurent, notamment le risque de contamination par des issues publiques, la dépendance à la couverture des tests, et une portée limitée aux langages inclus. Le classement observé suggère un niveau de performance encore resserré, avec une médiane à 46% sur les modèles suivis et un meilleur score à 53% pour MiniMax M2.7, ce qui ne montre pas de saturation évidente.


Sources des scores : llm-stats.