Code & programmation

Multi-SWE-Bench

Multi-SWE-Bench est un benchmark public publié en 2025 par ByteDance, via l’équipe Seed / Doubao. Il évalue la capacité des LLM à résoudre des problèmes logiciels réels issus de dépôts GitHub, en générant des correctifs validés par les tests du projet concerné.

Son intérêt est d’élargir l’évaluation au-delà du cadre très centré sur Python de SWE-Bench. En couvrant plusieurs écosystèmes de programmation, Multi-SWE-Bench sert à mesurer la robustesse des modèles face à des bases de code, langages et conventions de développement plus variés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	ByteDance (equipe Seed / Doubao)
Capacités mesurées	Evalue la capacite des LLM a resoudre des problemes logiciels reels dans des ecosystemes de programmation varies, au-dela du seul Python de SWE-bench.
Modalité	Texte
Type de questions	Resolution d'issues logicielles (generation de patch a partir d'un bug GitHub, verifie par tests)
Métrique d'évaluation	Taux de resolution (% d'instances resolues, pass@1) verifie via les tests unitaires du depot
Accès	Public
Langues	7 langages de programmation : Java, TypeScript, JavaScript, Go, Rust, C, C++
Taille du jeu	1 632 instances (annotees a partir de 2 456 candidats par 68 experts)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiniMax M2.7	MiniMax	52,7 %	18 mars 2026	Auto-déclaré
2	MiniMax M2.5	MiniMax	51,3 %	12 février 2026	Auto-déclaré
3	MiniMax M2.1	MiniMax	49,4 %	23 décembre 2025	Auto-déclaré
4	Kimi K2 0905	Moonshot AI	41,9 %	5 septembre 2025	Auto-déclaré
5	MiniMax M2	MiniMax	36,2 %	27 octobre 2025	Auto-déclaré
6	Qwen3-Coder 480B A35B Instruct	Qwen	25,8 %	31 janvier 2025	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 45,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multi-SWE-Bench indique qu’un modèle parvient, en pass@1, à produire un patch qui résout effectivement une issue logicielle et fait passer les tests unitaires associés. Le signal est donc proche d’un usage concret du codage agentique, car la réussite ne repose pas sur une réponse textuelle jugée abstraitement, mais sur l’exécution de tests dans le dépôt.

La rigueur du benchmark tient à la sélection d’instances de qualité et à une vérification par tests, mais l’interprétation des résultats reste prudente : dans la base, les scores sont majoritairement auto-déclarés par les éditeurs. Les limites classiques demeurent, notamment le risque de contamination par des issues publiques, la dépendance à la couverture des tests, et une portée limitée aux langages inclus. Le classement observé suggère un niveau de performance encore resserré, avec une médiane à 46% sur les modèles suivis et un meilleur score à 53% pour MiniMax M2.7, ce qui ne montre pas de saturation évidente.

Sources des scores : llm-stats.

Multi-SWE-Bench

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench