Autres benchmarks

SWE-Bench verified

Epoch: SWE-Bench verified est un benchmark public issu d’OpenAI et de SWE-bench/Princeton NLP, centré sur la maintenance logicielle réelle. Il s’appuie sur des issues GitHub et demande à un modèle ou à un agent de comprendre le problème, de modifier un dépôt de code et de produire un…

Ce benchmark sert à évaluer des capacités agentiques proches du travail de développement logiciel, au-delà de la simple génération de code isolé. Les performances sont jugées par la réussite des correctifs face aux tests, ce qui en fait un repère important pour comparer les modèles sur des tâches pratiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI et SWE-bench/Princeton NLP
Capacités mesurées	Mesure la capacité d’un modèle ou agent à comprendre une issue logicielle réelle, modifier un dépôt de code et produire un correctif qui passe les tests.
Modalité	Texte
Type de questions	tâches agentiques de correction de bugs et génération de patch à partir d'issues GitHub
Métrique d'évaluation	taux de résolution des instances, vérifié par tests unitaires
Accès	Public
Licence	MIT
Langues	anglais pour les descriptions, principalement Python pour le code
Taille du jeu	500 instances
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.7	Anthropic	83,5 %	12 mai 2026	✅ Mesuré
2	GPT-5.5	OpenAI	80,6 %	23 avril 2026	✅ Mesuré
3	Gemini 3.5 Flash	Google	79,3 %	19 mai 2026	✅ Mesuré
4	Claude Opus 4.6	Anthropic	78,7 %	7 avril 2026	✅ Mesuré
5	GLM-5.2	Zhipu AI	78,7 %	16 juin 2026	✅ Mesuré
6	DeepSeek V4 Pro	DeepSeek	77,6 %	24 avril 2026	✅ Mesuré
7	Qwen3.7 Max	Qwen	77,3 %	19 mai 2026	✅ Mesuré
8	GPT-5.4	OpenAI	76,9 %	5 mars 2026	✅ Mesuré
9	Claude Opus 4.5	Anthropic	76,7 %	24 novembre 2025	✅ Mesuré
10	Kimi K2.6	Moonshot AI	76,7 %	20 avril 2026	✅ Mesuré
11	Qwen 3.6 Max	Qwen	76,7 %	20 avril 2026	✅ Mesuré
12	Gemini 3.1 Pro Preview	Google	75,6 %	19 février 2026	✅ Mesuré
13	Gemini 3 Flash	Google	75,4 %	17 décembre 2025	✅ Mesuré
14	Claude Sonnet 4.6	Anthropic	75,2 %	17 février 2026	✅ Mesuré
15	GPT-5.3 Codex	OpenAI	74,8 %	5 février 2026	✅ Mesuré
16	GLM-5.1	Zhipu AI	74,2 %	7 avril 2026	✅ Mesuré
17	GPT-5.2	OpenAI	73,8 %	11 décembre 2025	✅ Mesuré
18	Kimi K2.5	Moonshot AI	73,8 %	27 janvier 2026	✅ Mesuré
19	GPT-5	OpenAI	73,6 %	7 août 2025	✅ Mesuré
20	Claude Opus 4.1	Anthropic	73,3 %	5 août 2025	✅ Mesuré

Classement établi sur 32 modèles évalués, dont 27 de grands éditeurs. Score médian de l'ensemble : 74,0 %.

Notre analyse

Un score élevé sur Epoch: SWE-Bench verified indique qu’un modèle parvient souvent à transformer une issue réelle en modification de code validée par des tests unitaires. Le signal est plus robuste qu’une simple auto-évaluation, car la résolution est vérifiée par l’exécution de tests et les scores disponibles sont au moins partiellement mesurés par un tiers. Le classement de la base montre un niveau déjà élevé, avec un score médian de 74 % sur les modèles évalués et un meilleur résultat à 83 % pour Claude Opus 4.7. Cela suggère que les modèles les plus avancés sont désormais capables de traiter une part importante de tâches de correction réalistes. Les limites restent importantes : le jeu compte 500 instances, principalement en Python, avec des descriptions en anglais. Des risques de saturation ou de contamination peuvent aussi réduire le pouvoir discriminant du benchmark à mesure que les modèles progressent. Il mesure surtout la correction de bugs dans des dépôts existants, pas l’ensemble des compétences d’ingénierie logicielle.

Sources des scores : epoch.

SWE-Bench verified

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench