SWE-Lancer

SWE-Lancer est un benchmark créé par OpenAI pour évaluer des modèles de langage sur des tâches réelles d’ingénierie logicielle freelance issues d’Upwork. Il couvre des corrections de bugs, des implémentations de fonctionnalités et des choix de propositions techniques, avec un ancrage…

SWE-Lancer est un benchmark créé par OpenAI pour évaluer des modèles de langage sur des tâches réelles d’ingénierie logicielle freelance issues d’Upwork. Il couvre des corrections de bugs, des implémentations de fonctionnalités et des choix de propositions techniques, avec un ancrage dans des situations de production plutôt que dans des exercices synthétiques.

Son intérêt tient à la combinaison de tâches de codage évaluées par tests de bout en bout et de décisions plus managériales comparées à celles de responsables techniques. Il sert ainsi à mesurer la capacité d’un modèle à produire un travail logiciel utile dans un cadre proche du marché.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesRésolution de tâches d'ingénierie logicielle freelance réelles (Upwork) : corrections de bugs, implémentation de fonctionnalités et choix de propositions techniques
ModalitéTexte
Type de questionsingénierie logicielle réelle (correction de bug / implémentation de feature + décisions managériales)
Métrique d'évaluationtaux de réussite (tests E2E triple-vérifiés) et valeur en dollars gagnée
AccèsPublic
Languesanglais + code
Taille du jeuplus de 1 400 tâches (~1 M USD au total)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.1 CodexOpenAI66,3 %19 novembre 2025Auto-déclaré
2GPT-5.4OpenAI37,3 %5 mars 2026Auto-déclaré
3GPT-4oOpenAI32,6 %27 mars 2025Auto-déclaré
4o3-miniOpenAI18,0 %30 janvier 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 35,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Lancer indique qu’un modèle parvient à résoudre une part importante de missions logicielles réalistes et à capter davantage de valeur économique simulée, ce qui en fait un signal pertinent pour les usages d’assistance au développement. La présence de tests E2E triple-vérifiés renforce la rigueur des tâches de codage, mais la fiabilité du classement reste à nuancer, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. Le niveau médian de 35 % et le meilleur score de 66 % suggèrent une marge de progression importante, sans saturation manifeste du benchmark. Les limites principales concernent la portée, centrée sur l’anglais, le code et des missions Upwork, ainsi que le risque de contamination lié à un accès public. Le classement révèle surtout la performance de modèles OpenAI dans un cadre conçu par OpenAI : les 4 modèles suivis dans la base proviennent du même éditeur, ce qui limite fortement l’usage du benchmark comme comparaison indépendante entre fournisseurs.


Sources des scores : llm-stats.