Multi-SWE-Bench
Multi-SWE-Bench est un benchmark public publié en 2025 par ByteDance, via l’équipe Seed / Doubao. Il évalue la capacité des LLM à résoudre des problèmes logiciels réels issus de dépôts GitHub, en générant des correctifs validés par les tests du projet concerné.
Multi-SWE-Bench est un benchmark public publié en 2025 par ByteDance, via l’équipe Seed / Doubao. Il évalue la capacité des LLM à résoudre des problèmes logiciels réels issus de dépôts GitHub, en générant des correctifs validés par les tests du projet concerné.
Son intérêt est d’élargir l’évaluation au-delà du cadre très centré sur Python de SWE-Bench. En couvrant plusieurs écosystèmes de programmation, Multi-SWE-Bench sert à mesurer la robustesse des modèles face à des bases de code, langages et conventions de développement plus variés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | ByteDance (equipe Seed / Doubao) |
| Capacités mesurées | Evalue la capacite des LLM a resoudre des problemes logiciels reels dans des ecosystemes de programmation varies, au-dela du seul Python de SWE-bench. |
| Modalité | Texte |
| Type de questions | Resolution d'issues logicielles (generation de patch a partir d'un bug GitHub, verifie par tests) |
| Métrique d'évaluation | Taux de resolution (% d'instances resolues, pass@1) verifie via les tests unitaires du depot |
| Accès | Public |
| Langues | 7 langages de programmation : Java, TypeScript, JavaScript, Go, Rust, C, C++ |
| Taille du jeu | 1 632 instances (annotees a partir de 2 456 candidats par 68 experts) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiniMax M2.7 | MiniMax | 52,7 % | 18 mars 2026 | Auto-déclaré |
| 2 | MiniMax M2.5 | MiniMax | 51,3 % | 12 février 2026 | Auto-déclaré |
| 3 | MiniMax M2.1 | MiniMax | 49,4 % | 23 décembre 2025 | Auto-déclaré |
| 4 | Kimi K2 0905 | Moonshot AI | 41,9 % | 5 septembre 2025 | Auto-déclaré |
| 5 | MiniMax M2 | MiniMax | 36,2 % | 27 octobre 2025 | Auto-déclaré |
| 6 | Qwen3-Coder 480B A35B Instruct | Qwen | 25,8 % | 31 janvier 2025 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 45,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Multi-SWE-Bench indique qu’un modèle parvient, en pass@1, à produire un patch qui résout effectivement une issue logicielle et fait passer les tests unitaires associés. Le signal est donc proche d’un usage concret du codage agentique, car la réussite ne repose pas sur une réponse textuelle jugée abstraitement, mais sur l’exécution de tests dans le dépôt.
La rigueur du benchmark tient à la sélection d’instances de qualité et à une vérification par tests, mais l’interprétation des résultats reste prudente : dans la base, les scores sont majoritairement auto-déclarés par les éditeurs. Les limites classiques demeurent, notamment le risque de contamination par des issues publiques, la dépendance à la couverture des tests, et une portée limitée aux langages inclus. Le classement observé suggère un niveau de performance encore resserré, avec une médiane à 46% sur les modèles suivis et un meilleur score à 53% pour MiniMax M2.7, ce qui ne montre pas de saturation évidente.
Sources des scores : llm-stats.