FrontierSWE

FrontierSWE est un benchmark de Proximal, aussi connu sous le nom Proximal-Labs, conçu pour évaluer des agents d’IA sur des projets techniques ouverts de très longue durée. Il cible des tâches d’ingénierie qui dépassent les simples exercices de programmation, avec des travaux pouvant…

FrontierSWE est un benchmark de Proximal, aussi connu sous le nom Proximal-Labs, conçu pour évaluer des agents d’IA sur des projets techniques ouverts de très longue durée. Il cible des tâches d’ingénierie qui dépassent les simples exercices de programmation, avec des travaux pouvant mobiliser optimisation système, construction de code à grande échelle et recherche appliquée en ML.

Son rôle est de mesurer la capacité d’un modèle à conduire une réalisation technique complexe dans la durée, avec un résultat évalué par tâche. FrontierSWE sert ainsi d’indicateur pour comparer des agents sur des scénarios proches de projets réels, où la planification, l’exécution et la robustesse comptent autant que la génération de code.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkProximal (Proximal-Labs)
Capacités mesuréesRealisation de projets techniques ouverts a l'echelle de plusieurs heures a dizaines d'heures : optimisation systeme, construction de code a grande echelle, recherche ML appliquee
ModalitéTexte
Type de questionsTaches d'ingenierie ouvertes ultra-long-horizon pour agents (implementation, optimisation perf, recherche ML)
Métrique d'évaluationTaux de reussite / score de performance par tache
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Taille du jeuPetit ensemble de taches extremement difficiles (nombre non divulgue) ; ~20h allouees, ~11h d'execution moyenne par tache
RessourcesSite / dépôt officiel

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic90,0 %9 juin 2026n.d.
2Claude Opus 4.8Anthropic75,0 %28 mai 2026n.d.
3GLM-5.2Zhipu AI74,0 %16 juin 2026n.d.
4GPT-5.5OpenAI73,0 %23 avril 2026n.d.
5Claude Opus 4.7Anthropic63,0 %12 mai 2026n.d.
6Claude Opus 4.6Anthropic56,0 %7 avril 2026n.d.
7GPT-5.4OpenAI54,0 %5 mars 2026n.d.
8Gemini 3.1 Pro PreviewGoogle40,0 %19 février 2026n.d.
9GLM-5.1Zhipu AI31,0 %7 avril 2026n.d.
10DeepSeek-V4-Pro-MaxDeepSeek29,0 %23 avril 2026n.d.
11Kimi K2.6Moonshot AI27,0 %20 avril 2026n.d.
12Kimi K2.5Moonshot AI26,0 %27 janvier 2026n.d.
13Qwen3.6 PlusQwen22,0 %31 mars 2026n.d.

Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 54,0 %.

Notre analyse

Un score élevé sur FrontierSWE indique qu’un agent parvient mieux que ses concurrents à mener à terme des tâches ouvertes, longues et techniquement exigeantes, avec une performance supérieure selon la métrique utilisée par tâche. Le meilleur résultat présent dans la base, Claude Fable 5 à 90 %, se distingue nettement d’un score médian de 54 % sur les modèles évalués, ce qui suggère un écart important entre les systèmes les plus performants et le reste du classement. L’interprétation doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement indépendante. Le jeu de test privé et les réponses non divulguées limitent le risque de contamination, mais le petit nombre de tâches, non divulgué, peut rendre les résultats sensibles au choix des cas. FrontierSWE couvre surtout des tâches d’ingénierie en anglais, ultra-long-horizon, et ne résume donc pas à lui seul les capacités générales d’un modèle.


Sources des scores : llm-stats.