SWE-Bench Verified
SWE-Bench Verified est un benchmark consacré à la résolution d’issues logicielles réelles. Créé par OpenAI et l’équipe SWE-bench de Princeton NLP, il sert à évaluer la capacité des modèles à comprendre un problème décrit en anglais, à explorer une base de code Python et à produire un…
SWE-Bench Verified est un benchmark consacré à la résolution d’issues logicielles réelles. Créé par OpenAI et l’équipe SWE-bench de Princeton NLP, il sert à évaluer la capacité des modèles à comprendre un problème décrit en anglais, à explorer une base de code Python et à produire un correctif fonctionnel.
Son intérêt tient à son ancrage dans des tâches proches du développement logiciel réel. Plutôt que de mesurer seulement la génération de code isolée, SWE-Bench Verified observe si un modèle peut modifier un projet existant de manière cohérente et faire passer les tests associés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI et l'équipe SWE-bench / Princeton NLP |
| Capacités mesurées | code, développement front-end, raisonnement |
| Modalité | Texte |
| Type de questions | génération de code / correctifs logiciels à partir d'issues GitHub |
| Métrique d'évaluation | taux de résolution des issues (tests réussis, équivalent pass@1) |
| Accès | Public |
| Licence | MIT |
| Langues | anglais; code Python |
| Taille du jeu | 500 problèmes |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 95,0 % | 9 juin 2026 | Auto-déclaré |
| 2 | Claude Mythos Preview | Anthropic | 93,9 % | — | Auto-déclaré |
| 3 | Claude Opus 4.8 | Anthropic | 88,6 % | 28 mai 2026 | Auto-déclaré |
| 4 | Claude Opus 4.7 | Anthropic | 87,6 % | 12 mai 2026 | Auto-déclaré |
| 5 | Claude Opus 4.5 | Anthropic | 80,9 % | 24 novembre 2025 | Auto-déclaré |
| 6 | Claude Opus 4.6 | Anthropic | 80,8 % | 7 avril 2026 | Auto-déclaré |
| 7 | DeepSeek-V4-Pro-Max | DeepSeek | 80,6 % | 23 avril 2026 | Auto-déclaré |
| 8 | Gemini 3.1 Pro Preview | 80,6 % | 19 février 2026 | Auto-déclaré | |
| 9 | MiniMax M3 | MiniMax | 80,5 % | 1 juin 2026 | Auto-déclaré |
| 10 | Qwen3.7 Max | Qwen | 80,4 % | 19 mai 2026 | Auto-déclaré |
| 11 | Kimi K2.6 | Moonshot AI | 80,2 % | 20 avril 2026 | Auto-déclaré |
| 12 | MiniMax M2.5 | MiniMax | 80,2 % | 12 février 2026 | Auto-déclaré |
| 13 | GPT-5.2 | OpenAI | 80,0 % | 11 décembre 2025 | Auto-déclaré |
| 14 | Claude Sonnet 4.6 | Anthropic | 79,6 % | 17 février 2026 | Auto-déclaré |
| 15 | DeepSeek-V4-Flash-Max | DeepSeek | 79,0 % | 23 avril 2026 | Auto-déclaré |
| 16 | MiMo-V2.5-Pro | Xiaomi | 78,9 % | 27 avril 2026 | Auto-déclaré |
| 17 | Qwen3.6 Plus | Qwen | 78,8 % | 31 mars 2026 | Auto-déclaré |
| 18 | Gemini 3 Flash | 78,0 % | 17 décembre 2025 | Auto-déclaré | |
| 19 | MiMo-V2-Pro | Xiaomi | 78,0 % | 18 mars 2026 | Auto-déclaré |
| 20 | GLM-5 | Zhipu AI | 77,8 % | 11 février 2026 | Auto-déclaré |
Classement établi sur 100 modèles évalués, dont 71 de grands éditeurs. Score médian de l'ensemble : 71,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SWE-Bench Verified indique qu’un modèle parvient souvent à transformer une issue GitHub en patch correct pour une base Python existante, avec une validation par les tests. La métrique correspond à un taux de résolution des issues, proche d’un pass@1, ce qui donne une lecture directe de l’efficacité en situation de correction logicielle.
La rigueur du benchmark repose sur un sous-ensemble vérifié de problèmes annotés humainement, mais l’interprétation du classement doit rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, 71 %, suggère aussi un risque de saturation progressive pour les meilleurs systèmes. La nature publique des tâches et leur origine GitHub posent en outre une question de contamination possible des données d’entraînement. La portée reste ciblée : anglais, code Python et génération de correctifs. Dans ce cadre, le classement distingue surtout les modèles les plus robustes en ingénierie logicielle pratique, avec Claude Fable 5 en tête à 95 % parmi les modèles recensés.
Sources des scores : llm-stats.