SWE-Bench Pro
SWE-Bench Pro est un benchmark d’évaluation des agents IA appliqué au génie logiciel réel. Créé par Xiang Deng et al. chez Scale AI, il prolonge SWE-Bench avec des tâches plus complexes, orientées vers la résolution d’issues et la production de patches répartis sur plusieurs fichiers.
SWE-Bench Pro est un benchmark d’évaluation des agents IA appliqué au génie logiciel réel. Créé par Xiang Deng et al. chez Scale AI, il prolonge SWE-Bench avec des tâches plus complexes, orientées vers la résolution d’issues et la production de patches répartis sur plusieurs fichiers.
Le benchmark mesure la capacité d’un modèle à raisonner sur un horizon long, à comprendre une base de code et à enchaîner plusieurs étapes de modification. Il sert ainsi de repère pour comparer les modèles sur des tâches proches du travail logiciel opérationnel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Xiang Deng et al. (Scale AI) |
| Capacités mesurées | Mesure la capacité des agents IA à résoudre des tâches de génie logiciel à long horizon, nécessitant des modifications substantielles réparties sur plusieurs fichiers. |
| Modalité | Texte |
| Type de questions | tâches agentiques de génie logiciel (résolution d'issues réelles, patches multi-fichiers) |
| Métrique d'évaluation | Pass@1 (% de tâches résolues) |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | CC BY 4.0 (papier) ; code/dataset public sur GitHub et HF |
| Langues | anglais, avec code |
| Taille du jeu | 1 865 tâches (41 dépôts) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 80,0 % | 9 juin 2026 | Auto-déclaré |
| 2 | Claude Mythos Preview | Anthropic | 77,8 % | — | Auto-déclaré |
| 3 | Claude Opus 4.8 | Anthropic | 69,2 % | 28 mai 2026 | Auto-déclaré |
| 4 | Claude Opus 4.7 | Anthropic | 64,3 % | 12 mai 2026 | Auto-déclaré |
| 5 | GLM-5.2 | Zhipu AI | 62,1 % | 16 juin 2026 | Auto-déclaré |
| 6 | Qwen3.7 Max | Qwen | 60,6 % | 19 mai 2026 | Auto-déclaré |
| 7 | MiniMax M3 | MiniMax | 59,0 % | 1 juin 2026 | Auto-déclaré |
| 8 | GPT-5.5 | OpenAI | 58,6 % | 23 avril 2026 | Auto-déclaré |
| 9 | Kimi K2.6 | Moonshot AI | 58,6 % | 20 avril 2026 | Auto-déclaré |
| 10 | GLM-5.1 | Zhipu AI | 58,4 % | 7 avril 2026 | Auto-déclaré |
| 11 | GPT-5.4 | OpenAI | 57,7 % | 5 mars 2026 | Auto-déclaré |
| 12 | Qwen3.7-Plus | Qwen | 57,6 % | 31 mai 2026 | Auto-déclaré |
| 13 | Seed 2.1 Pro | bytedance | 57,5 % | 24 juin 2026 | Auto-déclaré |
| 14 | MiMo-V2.5-Pro | Xiaomi | 57,2 % | 27 avril 2026 | Auto-déclaré |
| 15 | Seed 2.1 Turbo | bytedance | 57,0 % | 24 juin 2026 | Auto-déclaré |
| 16 | GPT-5.3 Codex | OpenAI | 56,8 % | 5 février 2026 | Auto-déclaré |
| 17 | Qwen3.6 Plus | Qwen | 56,6 % | 31 mars 2026 | Auto-déclaré |
| 18 | GPT-5.2 Codex | OpenAI | 56,4 % | 14 janvier 2026 | Auto-déclaré |
| 19 | MiniMax M2.7 | MiniMax | 56,2 % | 18 mars 2026 | Auto-déclaré |
| 20 | MiMo-V2.5 | Xiaomi | 56,1 % | 22 avril 2026 | Auto-déclaré |
Classement établi sur 34 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 56,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SWE-Bench Pro indique qu’un agent parvient à résoudre davantage de tâches de génie logiciel en une seule tentative, avec des modifications substantielles et cohérentes dans le code. Le meilleur résultat recensé, Claude Fable 5 à 80 %, se détache d’un ensemble dont le score médian atteint 56 %, ce qui suggère un écart notable entre les modèles les plus performants et le niveau central du classement. L’évaluation reste toutefois à lire avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs, même si le jeu de test privé et les réponses non divulguées renforcent la rigueur du protocole. Les limites tiennent aussi à la portée du benchmark, centré sur des tâches en anglais avec code et sur un ensemble défini de dépôts. Le niveau du meilleur score laisse encore une marge de progression, sans signe évident de saturation complète.
Sources des scores : llm-stats.