SWE-Bench verified
Epoch: SWE-Bench verified est un benchmark public issu d’OpenAI et de SWE-bench/Princeton NLP, centré sur la maintenance logicielle réelle. Il s’appuie sur des issues GitHub et demande à un modèle ou à un agent de comprendre le problème, de modifier un dépôt de code et de produire un…
Epoch: SWE-Bench verified est un benchmark public issu d’OpenAI et de SWE-bench/Princeton NLP, centré sur la maintenance logicielle réelle. Il s’appuie sur des issues GitHub et demande à un modèle ou à un agent de comprendre le problème, de modifier un dépôt de code et de produire un patch fonctionnel.
Ce benchmark sert à évaluer des capacités agentiques proches du travail de développement logiciel, au-delà de la simple génération de code isolé. Les performances sont jugées par la réussite des correctifs face aux tests, ce qui en fait un repère important pour comparer les modèles sur des tâches pratiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI et SWE-bench/Princeton NLP |
| Capacités mesurées | Mesure la capacité d’un modèle ou agent à comprendre une issue logicielle réelle, modifier un dépôt de code et produire un correctif qui passe les tests. |
| Modalité | Texte |
| Type de questions | tâches agentiques de correction de bugs et génération de patch à partir d'issues GitHub |
| Métrique d'évaluation | taux de résolution des instances, vérifié par tests unitaires |
| Accès | Public |
| Licence | MIT |
| Langues | anglais pour les descriptions, principalement Python pour le code |
| Taille du jeu | 500 instances |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.7 | Anthropic | 83,5 % | 12 mai 2026 | ✅ Mesuré |
| 2 | GPT-5.5 | OpenAI | 80,6 % | 23 avril 2026 | ✅ Mesuré |
| 3 | Gemini 3.5 Flash | 79,3 % | 19 mai 2026 | ✅ Mesuré | |
| 4 | Claude Opus 4.6 | Anthropic | 78,7 % | 7 avril 2026 | ✅ Mesuré |
| 5 | GLM-5.2 | Zhipu AI | 78,7 % | 16 juin 2026 | ✅ Mesuré |
| 6 | DeepSeek V4 Pro | DeepSeek | 77,6 % | 24 avril 2026 | ✅ Mesuré |
| 7 | Qwen3.7 Max | Qwen | 77,3 % | 19 mai 2026 | ✅ Mesuré |
| 8 | GPT-5.4 | OpenAI | 76,9 % | 5 mars 2026 | ✅ Mesuré |
| 9 | Claude Opus 4.5 | Anthropic | 76,7 % | 24 novembre 2025 | ✅ Mesuré |
| 10 | Kimi K2.6 | Moonshot AI | 76,7 % | 20 avril 2026 | ✅ Mesuré |
| 11 | Qwen 3.6 Max | Qwen | 76,7 % | 20 avril 2026 | ✅ Mesuré |
| 12 | Gemini 3.1 Pro Preview | 75,6 % | 19 février 2026 | ✅ Mesuré | |
| 13 | Gemini 3 Flash | 75,4 % | 17 décembre 2025 | ✅ Mesuré | |
| 14 | Claude Sonnet 4.6 | Anthropic | 75,2 % | 17 février 2026 | ✅ Mesuré |
| 15 | GPT-5.3 Codex | OpenAI | 74,8 % | 5 février 2026 | ✅ Mesuré |
| 16 | GLM-5.1 | Zhipu AI | 74,2 % | 7 avril 2026 | ✅ Mesuré |
| 17 | GPT-5.2 | OpenAI | 73,8 % | 11 décembre 2025 | ✅ Mesuré |
| 18 | Kimi K2.5 | Moonshot AI | 73,8 % | 27 janvier 2026 | ✅ Mesuré |
| 19 | GPT-5 | OpenAI | 73,6 % | 7 août 2025 | ✅ Mesuré |
| 20 | Claude Opus 4.1 | Anthropic | 73,3 % | 5 août 2025 | ✅ Mesuré |
Classement établi sur 32 modèles évalués, dont 27 de grands éditeurs. Score médian de l'ensemble : 74,0 %.
Notre analyse
Un score élevé sur Epoch: SWE-Bench verified indique qu’un modèle parvient souvent à transformer une issue réelle en modification de code validée par des tests unitaires. Le signal est plus robuste qu’une simple auto-évaluation, car la résolution est vérifiée par l’exécution de tests et les scores disponibles sont au moins partiellement mesurés par un tiers. Le classement de la base montre un niveau déjà élevé, avec un score médian de 74 % sur les modèles évalués et un meilleur résultat à 83 % pour Claude Opus 4.7. Cela suggère que les modèles les plus avancés sont désormais capables de traiter une part importante de tâches de correction réalistes. Les limites restent importantes : le jeu compte 500 instances, principalement en Python, avec des descriptions en anglais. Des risques de saturation ou de contamination peuvent aussi réduire le pouvoir discriminant du benchmark à mesure que les modèles progressent. Il mesure surtout la correction de bugs dans des dépôts existants, pas l’ensemble des compétences d’ingénierie logicielle.
Sources des scores : epoch.