Code & programmation

SWE-Lancer (IC-Diamond subset)

SWE-Lancer (IC-Diamond subset) est un benchmark créé par OpenAI pour évaluer des agents d’IA sur des tâches d’ingénierie logicielle issues de missions freelance réelles. Il porte sur la correction de bugs et l’implémentation de fonctionnalités dans un dépôt applicatif existant, avec une…

Le benchmark vise à mesurer la capacité d’un modèle à mener un travail logiciel autonome de bout en bout, au-delà de la simple génération de code. Il sert ainsi d’indicateur pratique pour comparer des modèles sur des tâches proches d’un contexte de production.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Ingénierie logicielle autonome de bout en bout, résolution de bugs et implémentation de fonctionnalités sur un dépôt réel
Modalité	Texte
Type de questions	tâches d'ingénierie logicielle freelance réelles (corrections de bugs, fonctionnalités), évaluées par tests end-to-end
Métrique d'évaluation	tests end-to-end réussis / valeur monétaire des tâches résolues ($)
Accès	Public
Langues	anglais ; code principalement JavaScript/TypeScript (app Expensify)
Taille du jeu	237 tâches IC SWE (sous-ensemble Diamond, ≈236 300 $)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5	OpenAI	100,0 %	7 août 2025	Auto-déclaré
2	GPT-5.3 Codex	OpenAI	81,4 %	5 février 2026	Auto-déclaré
3	GPT-5.2	OpenAI	74,6 %	11 décembre 2025	Auto-déclaré
4	GPT-5.4	OpenAI	17,4 %	5 mars 2026	Auto-déclaré
5	GPT-4o	OpenAI	12,4 %	27 mars 2025	Auto-déclaré
6	o3-mini	OpenAI	7,4 %	30 janvier 2025	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 46,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Lancer (IC-Diamond subset) indique qu’un modèle parvient à résoudre des tâches logicielles complètes, validées par des tests end-to-end, et à capter une part importante de la valeur monétaire associée aux missions résolues. L’évaluation est plus concrète que des tests de programmation isolés, car elle repose sur un dépôt réel et sur des tâches de correction ou de fonctionnalité. Sa lecture demande toutefois de la prudence : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, et les six modèles classés sont tous édités par OpenAI, également créateur du benchmark. Le résultat maximal de GPT-5 à 100% signale une possible saturation du sous-ensemble suivi. L’accès public expose aussi le benchmark à un risque de contamination au fil du temps. Enfin, sa portée reste centrée sur des tâches IC SWE, en anglais, dans un environnement principalement JavaScript/TypeScript, ce qui limite la généralisation à d’autres piles techniques ou organisations.

Sources des scores : llm-stats.

SWE-Lancer (IC-Diamond subset)

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench