SWE-bench Multilingual

SWE-bench Multilingual est un benchmark d’ingénierie logicielle consacré à la résolution d’issues GitHub dans plusieurs langages de programmation. Créé par ByteDance Seed et publié en 2025, il évalue la capacité des modèles à comprendre un dépôt, raisonner sur un bug, puis générer ou…

SWE-bench Multilingual est un benchmark d’ingénierie logicielle consacré à la résolution d’issues GitHub dans plusieurs langages de programmation. Créé par ByteDance Seed et publié en 2025, il évalue la capacité des modèles à comprendre un dépôt, raisonner sur un bug, puis générer ou modifier du code sous forme de patch.

Le benchmark prolonge l’esprit de SWE-Bench au-delà de Python, avec des tâches couvrant Java, TypeScript, JavaScript, Go, Rust, C et C++. Il sert à comparer les modèles sur des scénarios proches du développement logiciel réel, où la réussite dépend de tests unitaires passants.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkByteDance Seed
Capacités mesuréesgénération et édition de code, raisonnement, résolution de bugs multi-langages à l'échelle d'un dépôt
ModalitéTexte
Type de questionsrésolution d'issues GitHub (génération de patch corrigeant un bug à partir d'une issue)
Métrique d'évaluationtaux de résolution (% d'instances résolues, tests unitaires passants)
AccèsPublic
LicenceCC BY 4.0
LanguesJava, TypeScript, JavaScript, Go, Rust, C, C++
Taille du jeu1632 instances (annotées depuis 2456 candidats par 68 experts), 7 langages
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Mythos PreviewAnthropic87,3 %Auto-déclaré
2Claude Opus 4.8Anthropic84,4 %28 mai 2026Auto-déclaré
3Qwen3.7 MaxQwen78,3 %19 mai 2026Auto-déclaré
4Claude Opus 4.6Anthropic77,8 %7 avril 2026Auto-déclaré
5Kimi K2.6Moonshot AI76,7 %20 avril 2026Auto-déclaré
6MiniMax M2.7MiniMax76,5 %18 mars 2026Auto-déclaré
7DeepSeek-V4-Pro-MaxDeepSeek76,2 %23 avril 2026Auto-déclaré
8Qwen3.7-PlusQwen75,8 %31 mai 2026Auto-déclaré
9Qwen3.6 PlusQwen73,8 %31 mars 2026Auto-déclaré
10DeepSeek-V4-Flash-MaxDeepSeek73,3 %23 avril 2026Auto-déclaré
11Kimi K2.5Moonshot AI73,0 %27 janvier 2026Auto-déclaré
12MiniMax M2.1MiniMax72,5 %23 décembre 2025Auto-déclaré
13MiMo-V2-FlashXiaomi71,7 %16 décembre 2025Auto-déclaré
14MiMo-V2-ProXiaomi71,7 %18 mars 2026Auto-déclaré
15Qwen3.6-27BQwen71,3 %21 avril 2026Auto-déclaré
16DeepSeek-V3.2DeepSeek70,2 %1 décembre 2025Auto-déclaré
17DeepSeek-V3.2 (Thinking)DeepSeek70,2 %1 décembre 2025Auto-déclaré
18Qwen3.5-397B-A17BQwen69,3 %16 février 2026Auto-déclaré
19Nemotron 3 Ultra (550B A55B)NVIDIA67,7 %4 juin 2026Auto-déclaré
20Qwen3.6-35B-A3BQwen67,2 %16 avril 2026Auto-déclaré

Classement établi sur 32 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 70,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-bench Multilingual indique qu’un modèle parvient fréquemment à transformer une issue en correctif fonctionnel, validé par les tests unitaires associés. La métrique met donc l’accent sur le résultat exécutable plutôt que sur la seule qualité apparente du code. Dans la base, 32 modèles sont évalués, avec un score médian de 70 %, tandis que Claude Mythos Preview atteint 87 %, ce qui suggère un écart notable entre les meilleurs systèmes et le niveau central du classement.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures entièrement reproduites par un tiers. Comme pour d’autres benchmarks publics, des risques de contamination existent si des exemples, issues ou correctifs ont été vus pendant l’entraînement. La portée reste aussi circonscrite à la résolution de bugs issue de dépôts open source et à sept langages, sans couvrir toute la diversité des tâches de maintenance logicielle. Une progression générale des scores pourrait enfin réduire le pouvoir discriminant du benchmark si les meilleurs modèles s’approchent d’une zone de saturation.


Sources des scores : llm-stats.