SWE-bench Multilingual
SWE-bench Multilingual est un benchmark d’ingénierie logicielle consacré à la résolution d’issues GitHub dans plusieurs langages de programmation. Créé par ByteDance Seed et publié en 2025, il évalue la capacité des modèles à comprendre un dépôt, raisonner sur un bug, puis générer ou…
SWE-bench Multilingual est un benchmark d’ingénierie logicielle consacré à la résolution d’issues GitHub dans plusieurs langages de programmation. Créé par ByteDance Seed et publié en 2025, il évalue la capacité des modèles à comprendre un dépôt, raisonner sur un bug, puis générer ou modifier du code sous forme de patch.
Le benchmark prolonge l’esprit de SWE-Bench au-delà de Python, avec des tâches couvrant Java, TypeScript, JavaScript, Go, Rust, C et C++. Il sert à comparer les modèles sur des scénarios proches du développement logiciel réel, où la réussite dépend de tests unitaires passants.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | ByteDance Seed |
| Capacités mesurées | génération et édition de code, raisonnement, résolution de bugs multi-langages à l'échelle d'un dépôt |
| Modalité | Texte |
| Type de questions | résolution d'issues GitHub (génération de patch corrigeant un bug à partir d'une issue) |
| Métrique d'évaluation | taux de résolution (% d'instances résolues, tests unitaires passants) |
| Accès | Public |
| Licence | CC BY 4.0 |
| Langues | Java, TypeScript, JavaScript, Go, Rust, C, C++ |
| Taille du jeu | 1632 instances (annotées depuis 2456 candidats par 68 experts), 7 langages |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 87,3 % | — | Auto-déclaré |
| 2 | Claude Opus 4.8 | Anthropic | 84,4 % | 28 mai 2026 | Auto-déclaré |
| 3 | Qwen3.7 Max | Qwen | 78,3 % | 19 mai 2026 | Auto-déclaré |
| 4 | Claude Opus 4.6 | Anthropic | 77,8 % | 7 avril 2026 | Auto-déclaré |
| 5 | Kimi K2.6 | Moonshot AI | 76,7 % | 20 avril 2026 | Auto-déclaré |
| 6 | MiniMax M2.7 | MiniMax | 76,5 % | 18 mars 2026 | Auto-déclaré |
| 7 | DeepSeek-V4-Pro-Max | DeepSeek | 76,2 % | 23 avril 2026 | Auto-déclaré |
| 8 | Qwen3.7-Plus | Qwen | 75,8 % | 31 mai 2026 | Auto-déclaré |
| 9 | Qwen3.6 Plus | Qwen | 73,8 % | 31 mars 2026 | Auto-déclaré |
| 10 | DeepSeek-V4-Flash-Max | DeepSeek | 73,3 % | 23 avril 2026 | Auto-déclaré |
| 11 | Kimi K2.5 | Moonshot AI | 73,0 % | 27 janvier 2026 | Auto-déclaré |
| 12 | MiniMax M2.1 | MiniMax | 72,5 % | 23 décembre 2025 | Auto-déclaré |
| 13 | MiMo-V2-Flash | Xiaomi | 71,7 % | 16 décembre 2025 | Auto-déclaré |
| 14 | MiMo-V2-Pro | Xiaomi | 71,7 % | 18 mars 2026 | Auto-déclaré |
| 15 | Qwen3.6-27B | Qwen | 71,3 % | 21 avril 2026 | Auto-déclaré |
| 16 | DeepSeek-V3.2 | DeepSeek | 70,2 % | 1 décembre 2025 | Auto-déclaré |
| 17 | DeepSeek-V3.2 (Thinking) | DeepSeek | 70,2 % | 1 décembre 2025 | Auto-déclaré |
| 18 | Qwen3.5-397B-A17B | Qwen | 69,3 % | 16 février 2026 | Auto-déclaré |
| 19 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 67,7 % | 4 juin 2026 | Auto-déclaré |
| 20 | Qwen3.6-35B-A3B | Qwen | 67,2 % | 16 avril 2026 | Auto-déclaré |
Classement établi sur 32 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 70,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SWE-bench Multilingual indique qu’un modèle parvient fréquemment à transformer une issue en correctif fonctionnel, validé par les tests unitaires associés. La métrique met donc l’accent sur le résultat exécutable plutôt que sur la seule qualité apparente du code. Dans la base, 32 modèles sont évalués, avec un score médian de 70 %, tandis que Claude Mythos Preview atteint 87 %, ce qui suggère un écart notable entre les meilleurs systèmes et le niveau central du classement.
La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures entièrement reproduites par un tiers. Comme pour d’autres benchmarks publics, des risques de contamination existent si des exemples, issues ou correctifs ont été vus pendant l’entraînement. La portée reste aussi circonscrite à la résolution de bugs issue de dépôts open source et à sept langages, sans couvrir toute la diversité des tâches de maintenance logicielle. Une progression générale des scores pourrait enfin réduire le pouvoir discriminant du benchmark si les meilleurs modèles s’approchent d’une zone de saturation.
Sources des scores : llm-stats.