SWE-Bench Verified

SWE-Bench Verified est un benchmark consacré à la résolution d’issues logicielles réelles. Créé par OpenAI et l’équipe SWE-bench de Princeton NLP, il sert à évaluer la capacité des modèles à comprendre un problème décrit en anglais, à explorer une base de code Python et à produire un…

SWE-Bench Verified est un benchmark consacré à la résolution d’issues logicielles réelles. Créé par OpenAI et l’équipe SWE-bench de Princeton NLP, il sert à évaluer la capacité des modèles à comprendre un problème décrit en anglais, à explorer une base de code Python et à produire un correctif fonctionnel.

Son intérêt tient à son ancrage dans des tâches proches du développement logiciel réel. Plutôt que de mesurer seulement la génération de code isolée, SWE-Bench Verified observe si un modèle peut modifier un projet existant de manière cohérente et faire passer les tests associés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI et l'équipe SWE-bench / Princeton NLP
Capacités mesuréescode, développement front-end, raisonnement
ModalitéTexte
Type de questionsgénération de code / correctifs logiciels à partir d'issues GitHub
Métrique d'évaluationtaux de résolution des issues (tests réussis, équivalent pass@1)
AccèsPublic
LicenceMIT
Languesanglais; code Python
Taille du jeu500 problèmes
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic95,0 %9 juin 2026Auto-déclaré
2Claude Mythos PreviewAnthropic93,9 %Auto-déclaré
3Claude Opus 4.8Anthropic88,6 %28 mai 2026Auto-déclaré
4Claude Opus 4.7Anthropic87,6 %12 mai 2026Auto-déclaré
5Claude Opus 4.5Anthropic80,9 %24 novembre 2025Auto-déclaré
6Claude Opus 4.6Anthropic80,8 %7 avril 2026Auto-déclaré
7DeepSeek-V4-Pro-MaxDeepSeek80,6 %23 avril 2026Auto-déclaré
8Gemini 3.1 Pro PreviewGoogle80,6 %19 février 2026Auto-déclaré
9MiniMax M3MiniMax80,5 %1 juin 2026Auto-déclaré
10Qwen3.7 MaxQwen80,4 %19 mai 2026Auto-déclaré
11Kimi K2.6Moonshot AI80,2 %20 avril 2026Auto-déclaré
12MiniMax M2.5MiniMax80,2 %12 février 2026Auto-déclaré
13GPT-5.2OpenAI80,0 %11 décembre 2025Auto-déclaré
14Claude Sonnet 4.6Anthropic79,6 %17 février 2026Auto-déclaré
15DeepSeek-V4-Flash-MaxDeepSeek79,0 %23 avril 2026Auto-déclaré
16MiMo-V2.5-ProXiaomi78,9 %27 avril 2026Auto-déclaré
17Qwen3.6 PlusQwen78,8 %31 mars 2026Auto-déclaré
18Gemini 3 FlashGoogle78,0 %17 décembre 2025Auto-déclaré
19MiMo-V2-ProXiaomi78,0 %18 mars 2026Auto-déclaré
20GLM-5Zhipu AI77,8 %11 février 2026Auto-déclaré

Classement établi sur 100 modèles évalués, dont 71 de grands éditeurs. Score médian de l'ensemble : 71,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Bench Verified indique qu’un modèle parvient souvent à transformer une issue GitHub en patch correct pour une base Python existante, avec une validation par les tests. La métrique correspond à un taux de résolution des issues, proche d’un pass@1, ce qui donne une lecture directe de l’efficacité en situation de correction logicielle.

La rigueur du benchmark repose sur un sous-ensemble vérifié de problèmes annotés humainement, mais l’interprétation du classement doit rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, 71 %, suggère aussi un risque de saturation progressive pour les meilleurs systèmes. La nature publique des tâches et leur origine GitHub posent en outre une question de contamination possible des données d’entraînement. La portée reste ciblée : anglais, code Python et génération de correctifs. Dans ce cadre, le classement distingue surtout les modèles les plus robustes en ingénierie logicielle pratique, avec Claude Fable 5 en tête à 95 % parmi les modèles recensés.


Sources des scores : llm-stats.