FrontierSWE
FrontierSWE est un benchmark de Proximal, aussi connu sous le nom Proximal-Labs, conçu pour évaluer des agents d’IA sur des projets techniques ouverts de très longue durée. Il cible des tâches d’ingénierie qui dépassent les simples exercices de programmation, avec des travaux pouvant…
FrontierSWE est un benchmark de Proximal, aussi connu sous le nom Proximal-Labs, conçu pour évaluer des agents d’IA sur des projets techniques ouverts de très longue durée. Il cible des tâches d’ingénierie qui dépassent les simples exercices de programmation, avec des travaux pouvant mobiliser optimisation système, construction de code à grande échelle et recherche appliquée en ML.
Son rôle est de mesurer la capacité d’un modèle à conduire une réalisation technique complexe dans la durée, avec un résultat évalué par tâche. FrontierSWE sert ainsi d’indicateur pour comparer des agents sur des scénarios proches de projets réels, où la planification, l’exécution et la robustesse comptent autant que la génération de code.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Proximal (Proximal-Labs) |
| Capacités mesurées | Realisation de projets techniques ouverts a l'echelle de plusieurs heures a dizaines d'heures : optimisation systeme, construction de code a grande echelle, recherche ML appliquee |
| Modalité | Texte |
| Type de questions | Taches d'ingenierie ouvertes ultra-long-horizon pour agents (implementation, optimisation perf, recherche ML) |
| Métrique d'évaluation | Taux de reussite / score de performance par tache |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | Petit ensemble de taches extremement difficiles (nombre non divulgue) ; ~20h allouees, ~11h d'execution moyenne par tache |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 90,0 % | 9 juin 2026 | n.d. |
| 2 | Claude Opus 4.8 | Anthropic | 75,0 % | 28 mai 2026 | n.d. |
| 3 | GLM-5.2 | Zhipu AI | 74,0 % | 16 juin 2026 | n.d. |
| 4 | GPT-5.5 | OpenAI | 73,0 % | 23 avril 2026 | n.d. |
| 5 | Claude Opus 4.7 | Anthropic | 63,0 % | 12 mai 2026 | n.d. |
| 6 | Claude Opus 4.6 | Anthropic | 56,0 % | 7 avril 2026 | n.d. |
| 7 | GPT-5.4 | OpenAI | 54,0 % | 5 mars 2026 | n.d. |
| 8 | Gemini 3.1 Pro Preview | 40,0 % | 19 février 2026 | n.d. | |
| 9 | GLM-5.1 | Zhipu AI | 31,0 % | 7 avril 2026 | n.d. |
| 10 | DeepSeek-V4-Pro-Max | DeepSeek | 29,0 % | 23 avril 2026 | n.d. |
| 11 | Kimi K2.6 | Moonshot AI | 27,0 % | 20 avril 2026 | n.d. |
| 12 | Kimi K2.5 | Moonshot AI | 26,0 % | 27 janvier 2026 | n.d. |
| 13 | Qwen3.6 Plus | Qwen | 22,0 % | 31 mars 2026 | n.d. |
Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 54,0 %.
Notre analyse
Un score élevé sur FrontierSWE indique qu’un agent parvient mieux que ses concurrents à mener à terme des tâches ouvertes, longues et techniquement exigeantes, avec une performance supérieure selon la métrique utilisée par tâche. Le meilleur résultat présent dans la base, Claude Fable 5 à 90 %, se distingue nettement d’un score médian de 54 % sur les modèles évalués, ce qui suggère un écart important entre les systèmes les plus performants et le reste du classement. L’interprétation doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit la comparabilité par rapport à une évaluation entièrement indépendante. Le jeu de test privé et les réponses non divulguées limitent le risque de contamination, mais le petit nombre de tâches, non divulgué, peut rendre les résultats sensibles au choix des cas. FrontierSWE couvre surtout des tâches d’ingénierie en anglais, ultra-long-horizon, et ne résume donc pas à lui seul les capacités générales d’un modèle.
Sources des scores : llm-stats.