SkillsBench
SkillsBench est un benchmark public créé par SkillsBench (skillsbench.ai) pour évaluer des agents de codage sur des tâches de programmation auto-contenues. Il cible les compétences pratiques d’ingénierie logicielle, avec des scénarios couvrant plusieurs domaines du développement logiciel.
SkillsBench est un benchmark public créé par SkillsBench (skillsbench.ai) pour évaluer des agents de codage sur des tâches de programmation auto-contenues. Il cible les compétences pratiques d’ingénierie logicielle, avec des scénarios couvrant plusieurs domaines du développement logiciel.
Son intérêt est de mesurer la capacité d’un modèle à produire du code qui passe des vérificateurs déterministes, plutôt qu’à seulement répondre à des questions théoriques. Le benchmark sert aussi à comparer l’apport de Skills curées face à des Skills auto-générées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | SkillsBench (skillsbench.ai) |
| Capacités mesurées | Competences pratiques d'ingenierie logicielle des agents de codage ; mesure de l'apport des 'Skills' curees vs auto-generees sur des domaines varies. |
| Modalité | Texte |
| Type de questions | Taches de programmation auto-contenues avec verificateurs deterministes |
| Métrique d'évaluation | Taux de reussite (pass rate) |
| Accès | Public |
| Langues | Anglais (code) |
| Taille du jeu | 86 taches (84 evaluees) couvrant 11 domaines |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 59,2 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 54,9 % | 31 mai 2026 | Auto-déclaré |
| 3 | Qwen3.6-27B | Qwen | 48,2 % | 21 avril 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 45,7 % | 31 mars 2026 | Auto-déclaré |
| 5 | Qwen3.6-35B-A3B | Qwen | 28,7 % | 16 avril 2026 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 48,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SkillsBench indique qu’un agent réussit davantage de tâches de programmation vérifiées automatiquement, donc qu’il transforme plus souvent une consigne en solution exécutable et validée. La métrique, un taux de réussite, est lisible et directement liée au résultat attendu, mais la fiabilité du classement doit être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée reste également circonscrite à 84 tâches évaluées, dans 11 domaines, ce qui limite la couverture de l’ingénierie logicielle réelle et laisse possibles des effets de saturation ou de contamination si les tâches deviennent familières aux modèles. Dans la base, le score médian de 48 % montre que le benchmark conserve un pouvoir discriminant. Qwen3.7 Max atteint le meilleur résultat observé, à 59 %, ce qui suggère un écart réel mais non massif entre les modèles évalués, plutôt qu’une domination complète sur l’ensemble des compétences testées.
Sources des scores : llm-stats.