Code & programmation

SWE-Bench Pro

SWE-Bench Pro est un benchmark d’évaluation des agents IA appliqué au génie logiciel réel. Créé par Xiang Deng et al. chez Scale AI, il prolonge SWE-Bench avec des tâches plus complexes, orientées vers la résolution d’issues et la production de patches répartis sur plusieurs fichiers.

Le benchmark mesure la capacité d’un modèle à raisonner sur un horizon long, à comprendre une base de code et à enchaîner plusieurs étapes de modification. Il sert ainsi de repère pour comparer les modèles sur des tâches proches du travail logiciel opérationnel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Xiang Deng et al. (Scale AI)
Capacités mesurées	Mesure la capacité des agents IA à résoudre des tâches de génie logiciel à long horizon, nécessitant des modifications substantielles réparties sur plusieurs fichiers.
Modalité	Texte
Type de questions	tâches agentiques de génie logiciel (résolution d'issues réelles, patches multi-fichiers)
Métrique d'évaluation	Pass@1 (% de tâches résolues)
Accès	Jeu de test privé (réponses non divulguées)
Licence	CC BY 4.0 (papier) ; code/dataset public sur GitHub et HF
Langues	anglais, avec code
Taille du jeu	1 865 tâches (41 dépôts)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	80,0 %	9 juin 2026	Auto-déclaré
2	Claude Mythos Preview	Anthropic	77,8 %	—	Auto-déclaré
3	Claude Opus 4.8	Anthropic	69,2 %	28 mai 2026	Auto-déclaré
4	Claude Opus 4.7	Anthropic	64,3 %	12 mai 2026	Auto-déclaré
5	GLM-5.2	Zhipu AI	62,1 %	16 juin 2026	Auto-déclaré
6	Qwen3.7 Max	Qwen	60,6 %	19 mai 2026	Auto-déclaré
7	MiniMax M3	MiniMax	59,0 %	1 juin 2026	Auto-déclaré
8	GPT-5.5	OpenAI	58,6 %	23 avril 2026	Auto-déclaré
9	Kimi K2.6	Moonshot AI	58,6 %	20 avril 2026	Auto-déclaré
10	GLM-5.1	Zhipu AI	58,4 %	7 avril 2026	Auto-déclaré
11	GPT-5.4	OpenAI	57,7 %	5 mars 2026	Auto-déclaré
12	Qwen3.7-Plus	Qwen	57,6 %	31 mai 2026	Auto-déclaré
13	Seed 2.1 Pro	bytedance	57,5 %	24 juin 2026	Auto-déclaré
14	MiMo-V2.5-Pro	Xiaomi	57,2 %	27 avril 2026	Auto-déclaré
15	Seed 2.1 Turbo	bytedance	57,0 %	24 juin 2026	Auto-déclaré
16	GPT-5.3 Codex	OpenAI	56,8 %	5 février 2026	Auto-déclaré
17	Qwen3.6 Plus	Qwen	56,6 %	31 mars 2026	Auto-déclaré
18	GPT-5.2 Codex	OpenAI	56,4 %	14 janvier 2026	Auto-déclaré
19	MiniMax M2.7	MiniMax	56,2 %	18 mars 2026	Auto-déclaré
20	MiMo-V2.5	Xiaomi	56,1 %	22 avril 2026	Auto-déclaré

Classement établi sur 34 modèles évalués, dont 22 de grands éditeurs. Score médian de l'ensemble : 56,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Bench Pro indique qu’un agent parvient à résoudre davantage de tâches de génie logiciel en une seule tentative, avec des modifications substantielles et cohérentes dans le code. Le meilleur résultat recensé, Claude Fable 5 à 80 %, se détache d’un ensemble dont le score médian atteint 56 %, ce qui suggère un écart notable entre les modèles les plus performants et le niveau central du classement. L’évaluation reste toutefois à lire avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs, même si le jeu de test privé et les réponses non divulguées renforcent la rigueur du protocole. Les limites tiennent aussi à la portée du benchmark, centré sur des tâches en anglais avec code et sur un ensemble défini de dépôts. Le niveau du meilleur score laisse encore une marge de progression, sans signe évident de saturation complète.

Sources des scores : llm-stats.

SWE-Bench Pro

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23