SkillsBench

SkillsBench est un benchmark public créé par SkillsBench (skillsbench.ai) pour évaluer des agents de codage sur des tâches de programmation auto-contenues. Il cible les compétences pratiques d’ingénierie logicielle, avec des scénarios couvrant plusieurs domaines du développement logiciel.

SkillsBench est un benchmark public créé par SkillsBench (skillsbench.ai) pour évaluer des agents de codage sur des tâches de programmation auto-contenues. Il cible les compétences pratiques d’ingénierie logicielle, avec des scénarios couvrant plusieurs domaines du développement logiciel.

Son intérêt est de mesurer la capacité d’un modèle à produire du code qui passe des vérificateurs déterministes, plutôt qu’à seulement répondre à des questions théoriques. Le benchmark sert aussi à comparer l’apport de Skills curées face à des Skills auto-générées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkSkillsBench (skillsbench.ai)
Capacités mesuréesCompetences pratiques d'ingenierie logicielle des agents de codage ; mesure de l'apport des 'Skills' curees vs auto-generees sur des domaines varies.
ModalitéTexte
Type de questionsTaches de programmation auto-contenues avec verificateurs deterministes
Métrique d'évaluationTaux de reussite (pass rate)
AccèsPublic
LanguesAnglais (code)
Taille du jeu86 taches (84 evaluees) couvrant 11 domaines
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen59,2 %19 mai 2026Auto-déclaré
2Qwen3.7-PlusQwen54,9 %31 mai 2026Auto-déclaré
3Qwen3.6-27BQwen48,2 %21 avril 2026Auto-déclaré
4Qwen3.6 PlusQwen45,7 %31 mars 2026Auto-déclaré
5Qwen3.6-35B-A3BQwen28,7 %16 avril 2026Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 48,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SkillsBench indique qu’un agent réussit davantage de tâches de programmation vérifiées automatiquement, donc qu’il transforme plus souvent une consigne en solution exécutable et validée. La métrique, un taux de réussite, est lisible et directement liée au résultat attendu, mais la fiabilité du classement doit être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée reste également circonscrite à 84 tâches évaluées, dans 11 domaines, ce qui limite la couverture de l’ingénierie logicielle réelle et laisse possibles des effets de saturation ou de contamination si les tâches deviennent familières aux modèles. Dans la base, le score médian de 48 % montre que le benchmark conserve un pouvoir discriminant. Qwen3.7 Max atteint le meilleur résultat observé, à 59 %, ce qui suggère un écart réel mais non massif entre les modèles évalués, plutôt qu’une domination complète sur l’ensemble des compétences testées.


Sources des scores : llm-stats.