SWE-Bench Pro

SWE-Bench Pro est un benchmark d’évaluation des agents IA appliqué au génie logiciel réel. Créé par Xiang Deng et al. chez Scale AI, il prolonge SWE-Bench avec des tâches plus complexes, orientées vers la résolution d’issues et la production de patches répartis sur plusieurs fichiers.

SWE-Bench Pro est un benchmark d’évaluation des agents IA appliqué au génie logiciel réel. Créé par Xiang Deng et al. chez Scale AI, il prolonge SWE-Bench avec des tâches plus complexes, orientées vers la résolution d’issues et la production de patches répartis sur plusieurs fichiers.

Le benchmark mesure la capacité d’un modèle à raisonner sur un horizon long, à comprendre une base de code et à enchaîner plusieurs étapes de modification. Il sert ainsi de repère pour comparer les modèles sur des tâches proches du travail logiciel opérationnel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkXiang Deng et al. (Scale AI)
Capacités mesuréesMesure la capacité des agents IA à résoudre des tâches de génie logiciel à long horizon, nécessitant des modifications substantielles réparties sur plusieurs fichiers.
ModalitéTexte
Type de questionstâches agentiques de génie logiciel (résolution d'issues réelles, patches multi-fichiers)
Métrique d'évaluationPass@1 (% de tâches résolues)
AccèsJeu de test privé (réponses non divulguées)
LicenceCC BY 4.0 (papier) ; code/dataset public sur GitHub et HF
Languesanglais, avec code
Taille du jeu1 865 tâches (41 dépôts)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic80,0 %9 juin 2026Auto-déclaré
2Claude Mythos PreviewAnthropic77,8 %Auto-déclaré
3Claude Opus 4.8Anthropic69,2 %28 mai 2026Auto-déclaré
4Claude Opus 4.7Anthropic64,3 %12 mai 2026Auto-déclaré
5GLM-5.2Zhipu AI62,1 %16 juin 2026Auto-déclaré
6Qwen3.7 MaxQwen60,6 %19 mai 2026Auto-déclaré
7MiniMax M3MiniMax59,0 %1 juin 2026Auto-déclaré
8GPT-5.5OpenAI58,6 %23 avril 2026Auto-déclaré
9Kimi K2.6Moonshot AI58,6 %20 avril 2026Auto-déclaré
10GLM-5.1Zhipu AI58,4 %7 avril 2026Auto-déclaré
11GPT-5.4OpenAI57,7 %5 mars 2026Auto-déclaré
12Qwen3.7-PlusQwen57,6 %31 mai 2026Auto-déclaré
13Seed 2.1 Probytedance57,5 %24 juin 2026Auto-déclaré
14MiMo-V2.5-ProXiaomi57,2 %27 avril 2026Auto-déclaré
15Seed 2.1 Turbobytedance57,0 %24 juin 2026Auto-déclaré
16GPT-5.3 CodexOpenAI56,8 %5 février 2026Auto-déclaré
17Qwen3.6 PlusQwen56,6 %31 mars 2026Auto-déclaré
18GPT-5.2 CodexOpenAI56,4 %14 janvier 2026Auto-déclaré
19MiniMax M2.7MiniMax56,2 %18 mars 2026Auto-déclaré
20MiMo-V2.5Xiaomi56,1 %22 avril 2026Auto-déclaré

Classement établi sur 34 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 56,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Bench Pro indique qu’un agent parvient à résoudre davantage de tâches de génie logiciel en une seule tentative, avec des modifications substantielles et cohérentes dans le code. Le meilleur résultat recensé, Claude Fable 5 à 80 %, se détache d’un ensemble dont le score médian atteint 56 %, ce qui suggère un écart notable entre les modèles les plus performants et le niveau central du classement. L’évaluation reste toutefois à lire avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs, même si le jeu de test privé et les réponses non divulguées renforcent la rigueur du protocole. Les limites tiennent aussi à la portée du benchmark, centré sur des tâches en anglais avec code et sur un ensemble défini de dépôts. Le niveau du meilleur score laisse encore une marge de progression, sans signe évident de saturation complète.


Sources des scores : llm-stats.