SWE-Bench verified

Epoch: SWE-Bench verified est un benchmark public issu d’OpenAI et de SWE-bench/Princeton NLP, centré sur la maintenance logicielle réelle. Il s’appuie sur des issues GitHub et demande à un modèle ou à un agent de comprendre le problème, de modifier un dépôt de code et de produire un…

Epoch: SWE-Bench verified est un benchmark public issu d’OpenAI et de SWE-bench/Princeton NLP, centré sur la maintenance logicielle réelle. Il s’appuie sur des issues GitHub et demande à un modèle ou à un agent de comprendre le problème, de modifier un dépôt de code et de produire un patch fonctionnel.

Ce benchmark sert à évaluer des capacités agentiques proches du travail de développement logiciel, au-delà de la simple génération de code isolé. Les performances sont jugées par la réussite des correctifs face aux tests, ce qui en fait un repère important pour comparer les modèles sur des tâches pratiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI et SWE-bench/Princeton NLP
Capacités mesuréesMesure la capacité d’un modèle ou agent à comprendre une issue logicielle réelle, modifier un dépôt de code et produire un correctif qui passe les tests.
ModalitéTexte
Type de questionstâches agentiques de correction de bugs et génération de patch à partir d'issues GitHub
Métrique d'évaluationtaux de résolution des instances, vérifié par tests unitaires
AccèsPublic
LicenceMIT
Languesanglais pour les descriptions, principalement Python pour le code
Taille du jeu500 instances
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.7Anthropic83,5 %12 mai 2026✅ Mesuré
2GPT-5.5OpenAI80,6 %23 avril 2026✅ Mesuré
3Gemini 3.5 FlashGoogle79,3 %19 mai 2026✅ Mesuré
4Claude Opus 4.6Anthropic78,7 %7 avril 2026✅ Mesuré
5GLM-5.2Zhipu AI78,7 %16 juin 2026✅ Mesuré
6DeepSeek V4 ProDeepSeek77,6 %24 avril 2026✅ Mesuré
7Qwen3.7 MaxQwen77,3 %19 mai 2026✅ Mesuré
8GPT-5.4OpenAI76,9 %5 mars 2026✅ Mesuré
9Claude Opus 4.5Anthropic76,7 %24 novembre 2025✅ Mesuré
10Kimi K2.6Moonshot AI76,7 %20 avril 2026✅ Mesuré
11Qwen 3.6 MaxQwen76,7 %20 avril 2026✅ Mesuré
12Gemini 3.1 Pro PreviewGoogle75,6 %19 février 2026✅ Mesuré
13Gemini 3 FlashGoogle75,4 %17 décembre 2025✅ Mesuré
14Claude Sonnet 4.6Anthropic75,2 %17 février 2026✅ Mesuré
15GPT-5.3 CodexOpenAI74,8 %5 février 2026✅ Mesuré
16GLM-5.1Zhipu AI74,2 %7 avril 2026✅ Mesuré
17GPT-5.2OpenAI73,8 %11 décembre 2025✅ Mesuré
18Kimi K2.5Moonshot AI73,8 %27 janvier 2026✅ Mesuré
19GPT-5OpenAI73,6 %7 août 2025✅ Mesuré
20Claude Opus 4.1Anthropic73,3 %5 août 2025✅ Mesuré

Classement établi sur 32 modèles évalués, dont 27 de grands éditeurs. Score médian de l'ensemble : 74,0 %.

Notre analyse

Un score élevé sur Epoch: SWE-Bench verified indique qu’un modèle parvient souvent à transformer une issue réelle en modification de code validée par des tests unitaires. Le signal est plus robuste qu’une simple auto-évaluation, car la résolution est vérifiée par l’exécution de tests et les scores disponibles sont au moins partiellement mesurés par un tiers. Le classement de la base montre un niveau déjà élevé, avec un score médian de 74 % sur les modèles évalués et un meilleur résultat à 83 % pour Claude Opus 4.7. Cela suggère que les modèles les plus avancés sont désormais capables de traiter une part importante de tâches de correction réalistes. Les limites restent importantes : le jeu compte 500 instances, principalement en Python, avec des descriptions en anglais. Des risques de saturation ou de contamination peuvent aussi réduire le pouvoir discriminant du benchmark à mesure que les modèles progressent. Il mesure surtout la correction de bugs dans des dépôts existants, pas l’ensemble des compétences d’ingénierie logicielle.


Sources des scores : epoch.