Code & programmation

SWE-Lancer

SWE-Lancer est un benchmark créé par OpenAI pour évaluer des modèles de langage sur des tâches réelles d’ingénierie logicielle freelance issues d’Upwork. Il couvre des corrections de bugs, des implémentations de fonctionnalités et des choix de propositions techniques, avec un ancrage…

Son intérêt tient à la combinaison de tâches de codage évaluées par tests de bout en bout et de décisions plus managériales comparées à celles de responsables techniques. Il sert ainsi à mesurer la capacité d’un modèle à produire un travail logiciel utile dans un cadre proche du marché.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Résolution de tâches d'ingénierie logicielle freelance réelles (Upwork) : corrections de bugs, implémentation de fonctionnalités et choix de propositions techniques
Modalité	Texte
Type de questions	ingénierie logicielle réelle (correction de bug / implémentation de feature + décisions managériales)
Métrique d'évaluation	taux de réussite (tests E2E triple-vérifiés) et valeur en dollars gagnée
Accès	Public
Langues	anglais + code
Taille du jeu	plus de 1 400 tâches (~1 M USD au total)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.1 Codex	OpenAI	66,3 %	19 novembre 2025	Auto-déclaré
2	GPT-5.4	OpenAI	37,3 %	5 mars 2026	Auto-déclaré
3	GPT-4o	OpenAI	32,6 %	27 mars 2025	Auto-déclaré
4	o3-mini	OpenAI	18,0 %	30 janvier 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 35,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SWE-Lancer indique qu’un modèle parvient à résoudre une part importante de missions logicielles réalistes et à capter davantage de valeur économique simulée, ce qui en fait un signal pertinent pour les usages d’assistance au développement. La présence de tests E2E triple-vérifiés renforce la rigueur des tâches de codage, mais la fiabilité du classement reste à nuancer, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. Le niveau médian de 35 % et le meilleur score de 66 % suggèrent une marge de progression importante, sans saturation manifeste du benchmark. Les limites principales concernent la portée, centrée sur l’anglais, le code et des missions Upwork, ainsi que le risque de contamination lié à un accès public. Le classement révèle surtout la performance de modèles OpenAI dans un cadre conçu par OpenAI : les 4 modèles suivis dans la base proviennent du même éditeur, ce qui limite fortement l’usage du benchmark comme comparaison indépendante entre fournisseurs.

Sources des scores : llm-stats.

SWE-Lancer

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23