Code & programmation

SkillsBench

SkillsBench est un benchmark public créé par SkillsBench (skillsbench.ai) pour évaluer des agents de codage sur des tâches de programmation auto-contenues. Il cible les compétences pratiques d’ingénierie logicielle, avec des scénarios couvrant plusieurs domaines du développement logiciel.

Son intérêt est de mesurer la capacité d’un modèle à produire du code qui passe des vérificateurs déterministes, plutôt qu’à seulement répondre à des questions théoriques. Le benchmark sert aussi à comparer l’apport de Skills curées face à des Skills auto-générées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	SkillsBench (skillsbench.ai)
Capacités mesurées	Competences pratiques d'ingenierie logicielle des agents de codage ; mesure de l'apport des 'Skills' curees vs auto-generees sur des domaines varies.
Modalité	Texte
Type de questions	Taches de programmation auto-contenues avec verificateurs deterministes
Métrique d'évaluation	Taux de reussite (pass rate)
Accès	Public
Langues	Anglais (code)
Taille du jeu	86 taches (84 evaluees) couvrant 11 domaines
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	59,2 %	19 mai 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	54,9 %	31 mai 2026	Auto-déclaré
3	Qwen3.6-27B	Qwen	48,2 %	21 avril 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	45,7 %	31 mars 2026	Auto-déclaré
5	Qwen3.6-35B-A3B	Qwen	28,7 %	16 avril 2026	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 48,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SkillsBench indique qu’un agent réussit davantage de tâches de programmation vérifiées automatiquement, donc qu’il transforme plus souvent une consigne en solution exécutable et validée. La métrique, un taux de réussite, est lisible et directement liée au résultat attendu, mais la fiabilité du classement doit être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée reste également circonscrite à 84 tâches évaluées, dans 11 domaines, ce qui limite la couverture de l’ingénierie logicielle réelle et laisse possibles des effets de saturation ou de contamination si les tâches deviennent familières aux modèles. Dans la base, le score médian de 48 % montre que le benchmark conserve un pouvoir discriminant. Qwen3.7 Max atteint le meilleur résultat observé, à 59 %, ce qui suggère un écart réel mais non massif entre les modèles évalués, plutôt qu’une domination complète sur l’ensemble des compétences testées.

Sources des scores : llm-stats.

SkillsBench

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench