SWE-Lancer (IC-Diamond subset)

SWE-Lancer (IC-Diamond subset) est un benchmark créé par OpenAI pour évaluer des agents d’IA sur des tâches d’ingénierie logicielle issues de missions freelance réelles. Il porte sur la correction de bugs et l’implémentation de fonctionnalités dans un dépôt applicatif existant, avec une…

SWE-Lancer (IC-Diamond subset) est un benchmark créé par OpenAI pour évaluer des agents d’IA sur des tâches d’ingénierie logicielle issues de missions freelance réelles. Il porte sur la correction de bugs et l’implémentation de fonctionnalités dans un dépôt applicatif existant, avec une validation par tests end-to-end.

Le benchmark vise à mesurer la capacité d’un modèle à mener un travail logiciel autonome de bout en bout, au-delà de la simple génération de code. Il sert ainsi d’indicateur pratique pour comparer des modèles sur des tâches proches d’un contexte de production.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesIngénierie logicielle autonome de bout en bout, résolution de bugs et implémentation de fonctionnalités sur un dépôt réel
ModalitéTexte
Type de questionstâches d'ingénierie logicielle freelance réelles (corrections de bugs, fonctionnalités), évaluées par tests end-to-end
Métrique d'évaluationtests end-to-end réussis / valeur monétaire des tâches résolues ($)
AccèsPublic
Languesanglais ; code principalement JavaScript/TypeScript (app Expensify)
Taille du jeu237 tâches IC SWE (sous-ensemble Diamond, ≈236 300 $)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5OpenAI100,0 %7 août 2025Auto-déclaré
2GPT-5.3 CodexOpenAI81,4 %5 février 2026Auto-déclaré
3GPT-5.2OpenAI74,6 %11 décembre 2025Auto-déclaré
4GPT-5.4OpenAI17,4 %5 mars 2026Auto-déclaré
5GPT-4oOpenAI12,4 %27 mars 2025Auto-déclaré
6o3-miniOpenAI7,4 %30 janvier 2025Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 46,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Lancer (IC-Diamond subset) indique qu’un modèle parvient à résoudre des tâches logicielles complètes, validées par des tests end-to-end, et à capter une part importante de la valeur monétaire associée aux missions résolues. L’évaluation est plus concrète que des tests de programmation isolés, car elle repose sur un dépôt réel et sur des tâches de correction ou de fonctionnalité. Sa lecture demande toutefois de la prudence : les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, et les six modèles classés sont tous édités par OpenAI, également créateur du benchmark. Le résultat maximal de GPT-5 à 100% signale une possible saturation du sous-ensemble suivi. L’accès public expose aussi le benchmark à un risque de contamination au fil du temps. Enfin, sa portée reste centrée sur des tâches IC SWE, en anglais, dans un environnement principalement JavaScript/TypeScript, ce qui limite la généralisation à d’autres piles techniques ou organisations.


Sources des scores : llm-stats.