Code & programmation

FrontierSWE

FrontierSWE est un benchmark de Proximal, aussi connu sous le nom Proximal-Labs, conçu pour évaluer des agents d’IA sur des projets techniques ouverts de très longue durée. Il cible des tâches d’ingénierie qui dépassent les simples exercices de programmation, avec des travaux pouvant…

Son rôle est de mesurer la capacité d’un modèle à conduire une réalisation technique complexe dans la durée, avec un résultat évalué par tâche. FrontierSWE sert ainsi d’indicateur pour comparer des agents sur des scénarios proches de projets réels, où la planification, l’exécution et la robustesse comptent autant que la génération de code.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Proximal (Proximal-Labs)
Capacités mesurées	Realisation de projets techniques ouverts a l'echelle de plusieurs heures a dizaines d'heures : optimisation systeme, construction de code a grande echelle, recherche ML appliquee
Modalité	Texte
Type de questions	Taches d'ingenierie ouvertes ultra-long-horizon pour agents (implementation, optimisation perf, recherche ML)
Métrique d'évaluation	Taux de reussite / score de performance par tache
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Taille du jeu	Petit ensemble de taches extremement difficiles (nombre non divulgue) ; ~20h allouees, ~11h d'execution moyenne par tache
Ressources	Site / dépôt officiel

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	90,0 %	9 juin 2026	n.d.
2	Claude Opus 4.8	Anthropic	75,0 %	28 mai 2026	n.d.
3	GLM-5.2	Zhipu AI	74,0 %	16 juin 2026	n.d.
4	GPT-5.5	OpenAI	73,0 %	23 avril 2026	n.d.
5	Claude Opus 4.7	Anthropic	63,0 %	12 mai 2026	n.d.
6	Claude Opus 4.6	Anthropic	56,0 %	7 avril 2026	n.d.
7	GPT-5.4	OpenAI	54,0 %	5 mars 2026	n.d.
8	Gemini 3.1 Pro Preview	Google	40,0 %	19 février 2026	n.d.
9	GLM-5.1	Zhipu AI	31,0 %	7 avril 2026	n.d.
10	DeepSeek-V4-Pro-Max	DeepSeek	29,0 %	23 avril 2026	n.d.
11	Kimi K2.6	Moonshot AI	27,0 %	20 avril 2026	n.d.
12	Kimi K2.5	Moonshot AI	26,0 %	27 janvier 2026	n.d.
13	Qwen3.6 Plus	Qwen	22,0 %	31 mars 2026	n.d.

Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 54,0 %.

Notre analyse

Un score élevé sur FrontierSWE indique qu’un agent parvient mieux que ses concurrents à mener à terme des tâches ouvertes, longues et techniquement exigeantes, avec une performance supérieure selon la métrique utilisée par tâche. Le meilleur résultat présent dans la base, Claude Fable 5 à 90 %, se distingue nettement d’un score médian de 54 % sur les modèles évalués, ce qui suggère un écart important entre les systèmes les plus performants et le reste du classement. L’interprétation doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement indépendante. Le jeu de test privé et les réponses non divulguées limitent le risque de contamination, mais le petit nombre de tâches, non divulgué, peut rendre les résultats sensibles au choix des cas. FrontierSWE couvre surtout des tâches d’ingénierie en anglais, ultra-long-horizon, et ne résume donc pas à lui seul les capacités générales d’un modèle.

Sources des scores : llm-stats.

FrontierSWE

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23