Code & programmation

SWE-bench Multilingual

SWE-bench Multilingual est un benchmark d’ingénierie logicielle consacré à la résolution d’issues GitHub dans plusieurs langages de programmation. Créé par ByteDance Seed et publié en 2025, il évalue la capacité des modèles à comprendre un dépôt, raisonner sur un bug, puis générer ou…

Le benchmark prolonge l’esprit de SWE-Bench au-delà de Python, avec des tâches couvrant Java, TypeScript, JavaScript, Go, Rust, C et C++. Il sert à comparer les modèles sur des scénarios proches du développement logiciel réel, où la réussite dépend de tests unitaires passants.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	ByteDance Seed
Capacités mesurées	génération et édition de code, raisonnement, résolution de bugs multi-langages à l'échelle d'un dépôt
Modalité	Texte
Type de questions	résolution d'issues GitHub (génération de patch corrigeant un bug à partir d'une issue)
Métrique d'évaluation	taux de résolution (% d'instances résolues, tests unitaires passants)
Accès	Public
Licence	CC BY 4.0
Langues	Java, TypeScript, JavaScript, Go, Rust, C, C++
Taille du jeu	1632 instances (annotées depuis 2456 candidats par 68 experts), 7 langages
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Mythos Preview	Anthropic	87,3 %	—	Auto-déclaré
2	Claude Opus 4.8	Anthropic	84,4 %	28 mai 2026	Auto-déclaré
3	Qwen3.7 Max	Qwen	78,3 %	19 mai 2026	Auto-déclaré
4	Claude Opus 4.6	Anthropic	77,8 %	7 avril 2026	Auto-déclaré
5	Kimi K2.6	Moonshot AI	76,7 %	20 avril 2026	Auto-déclaré
6	MiniMax M2.7	MiniMax	76,5 %	18 mars 2026	Auto-déclaré
7	DeepSeek-V4-Pro-Max	DeepSeek	76,2 %	23 avril 2026	Auto-déclaré
8	Qwen3.7-Plus	Qwen	75,8 %	31 mai 2026	Auto-déclaré
9	Qwen3.6 Plus	Qwen	73,8 %	31 mars 2026	Auto-déclaré
10	DeepSeek-V4-Flash-Max	DeepSeek	73,3 %	23 avril 2026	Auto-déclaré
11	Kimi K2.5	Moonshot AI	73,0 %	27 janvier 2026	Auto-déclaré
12	MiniMax M2.1	MiniMax	72,5 %	23 décembre 2025	Auto-déclaré
13	MiMo-V2-Flash	Xiaomi	71,7 %	16 décembre 2025	Auto-déclaré
14	MiMo-V2-Pro	Xiaomi	71,7 %	18 mars 2026	Auto-déclaré
15	Qwen3.6-27B	Qwen	71,3 %	21 avril 2026	Auto-déclaré
16	DeepSeek-V3.2	DeepSeek	70,2 %	1 décembre 2025	Auto-déclaré
17	DeepSeek-V3.2 (Thinking)	DeepSeek	70,2 %	1 décembre 2025	Auto-déclaré
18	Qwen3.5-397B-A17B	Qwen	69,3 %	16 février 2026	Auto-déclaré
19	Nemotron 3 Ultra (550B A55B)	NVIDIA	67,7 %	4 juin 2026	Auto-déclaré
20	Qwen3.6-35B-A3B	Qwen	67,2 %	16 avril 2026	Auto-déclaré

Classement établi sur 32 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 70,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-bench Multilingual indique qu’un modèle parvient fréquemment à transformer une issue en correctif fonctionnel, validé par les tests unitaires associés. La métrique met donc l’accent sur le résultat exécutable plutôt que sur la seule qualité apparente du code. Dans la base, 32 modèles sont évalués, avec un score médian de 70 %, tandis que Claude Mythos Preview atteint 87 %, ce qui suggère un écart notable entre les meilleurs systèmes et le niveau central du classement.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures entièrement reproduites par un tiers. Comme pour d’autres benchmarks publics, des risques de contamination existent si des exemples, issues ou correctifs ont été vus pendant l’entraînement. La portée reste aussi circonscrite à la résolution de bugs issue de dépôts open source et à sept langages, sans couvrir toute la diversité des tâches de maintenance logicielle. Une progression générale des scores pourrait enfin réduire le pouvoir discriminant du benchmark si les meilleurs modèles s’approchent d’une zone de saturation.

Sources des scores : llm-stats.

SWE-bench Multilingual

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench