Code & programmation

SWE-Bench Verified

SWE-Bench Verified est un benchmark consacré à la résolution d’issues logicielles réelles. Créé par OpenAI et l’équipe SWE-bench de Princeton NLP, il sert à évaluer la capacité des modèles à comprendre un problème décrit en anglais, à explorer une base de code Python et à produire un…

Son intérêt tient à son ancrage dans des tâches proches du développement logiciel réel. Plutôt que de mesurer seulement la génération de code isolée, SWE-Bench Verified observe si un modèle peut modifier un projet existant de manière cohérente et faire passer les tests associés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI et l'équipe SWE-bench / Princeton NLP
Capacités mesurées	code, développement front-end, raisonnement
Modalité	Texte
Type de questions	génération de code / correctifs logiciels à partir d'issues GitHub
Métrique d'évaluation	taux de résolution des issues (tests réussis, équivalent pass@1)
Accès	Public
Licence	MIT
Langues	anglais; code Python
Taille du jeu	500 problèmes
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	95,0 %	9 juin 2026	Auto-déclaré
2	Claude Mythos Preview	Anthropic	93,9 %	—	Auto-déclaré
3	Claude Opus 4.8	Anthropic	88,6 %	28 mai 2026	Auto-déclaré
4	Claude Opus 4.7	Anthropic	87,6 %	12 mai 2026	Auto-déclaré
5	Claude Opus 4.5	Anthropic	80,9 %	24 novembre 2025	Auto-déclaré
6	Claude Opus 4.6	Anthropic	80,8 %	7 avril 2026	Auto-déclaré
7	DeepSeek-V4-Pro-Max	DeepSeek	80,6 %	23 avril 2026	Auto-déclaré
8	Gemini 3.1 Pro Preview	Google	80,6 %	19 février 2026	Auto-déclaré
9	MiniMax M3	MiniMax	80,5 %	1 juin 2026	Auto-déclaré
10	Qwen3.7 Max	Qwen	80,4 %	19 mai 2026	Auto-déclaré
11	Kimi K2.6	Moonshot AI	80,2 %	20 avril 2026	Auto-déclaré
12	MiniMax M2.5	MiniMax	80,2 %	12 février 2026	Auto-déclaré
13	GPT-5.2	OpenAI	80,0 %	11 décembre 2025	Auto-déclaré
14	Claude Sonnet 4.6	Anthropic	79,6 %	17 février 2026	Auto-déclaré
15	DeepSeek-V4-Flash-Max	DeepSeek	79,0 %	23 avril 2026	Auto-déclaré
16	MiMo-V2.5-Pro	Xiaomi	78,9 %	27 avril 2026	Auto-déclaré
17	Qwen3.6 Plus	Qwen	78,8 %	31 mars 2026	Auto-déclaré
18	Gemini 3 Flash	Google	78,0 %	17 décembre 2025	Auto-déclaré
19	MiMo-V2-Pro	Xiaomi	78,0 %	18 mars 2026	Auto-déclaré
20	GLM-5	Zhipu AI	77,8 %	11 février 2026	Auto-déclaré

Classement établi sur 100 modèles évalués, dont 71 de grands éditeurs. Score médian de l'ensemble : 71,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Bench Verified indique qu’un modèle parvient souvent à transformer une issue GitHub en patch correct pour une base Python existante, avec une validation par les tests. La métrique correspond à un taux de résolution des issues, proche d’un pass@1, ce qui donne une lecture directe de l’efficacité en situation de correction logicielle.

La rigueur du benchmark repose sur un sous-ensemble vérifié de problèmes annotés humainement, mais l’interprétation du classement doit rester prudente : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau médian élevé, 71 %, suggère aussi un risque de saturation progressive pour les meilleurs systèmes. La nature publique des tâches et leur origine GitHub posent en outre une question de contamination possible des données d’entraînement. La portée reste ciblée : anglais, code Python et génération de correctifs. Dans ce cadre, le classement distingue surtout les modèles les plus robustes en ingénierie logicielle pratique, avec Claude Fable 5 en tête à 95 % parmi les modèles recensés.

Sources des scores : llm-stats.

SWE-Bench Verified

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench