NL2Repo

NL2Repo est un benchmark public publié en 2025 pour évaluer la génération autonome de dépôts logiciels à partir de spécifications en langage naturel. Les informations disponibles ne précisent pas l’organisation ou l’équipe à l’origine du benchmark.

NL2Repo est un benchmark public publié en 2025 pour évaluer la génération autonome de dépôts logiciels à partir de spécifications en langage naturel. Les informations disponibles ne précisent pas l’organisation ou l’équipe à l’origine du benchmark.

Il cible le codage long-horizon, au-delà de la résolution de fonctions isolées : conception d’architecture, gestion des dépendances, implémentation sur plusieurs fichiers et packaging d’une bibliothèque Python complète. Son intérêt est de tester la capacité d’un modèle à maintenir une cohérence de dépôt et à produire du code exécutable dans un cadre proche d’un projet logiciel réel.

Carte d'identité

CaractéristiqueValeur
Capacités mesuréesCodage long-horizon : conception architecturale, gestion des dépendances, implémentation multi-fichiers et packaging d'un dépôt complet de façon autonome
ModalitéTexte
Type de questionsgénération de dépôt complet (bibliothèque Python) à partir d'une spécification en langage naturel
Métrique d'évaluationtaux de réussite des tests (test pass rate)
AccèsPublic
Languesanglais (génère des bibliothèques Python)
Taille du jeu104 tâches (documents d'entrée ≈19k tokens en moyenne)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1GLM-5.2Zhipu AI48,9 %16 juin 2026Auto-déclaré
2Qwen3.7 MaxQwen47,2 %19 mai 2026Auto-déclaré
3Seed 2.1 Probytedance47,0 %24 juin 2026Auto-déclaré
4Seed 2.1 Turbobytedance43,7 %24 juin 2026Auto-déclaré
5GLM-5.1Zhipu AI42,7 %7 avril 2026Auto-déclaré
6MiniMax M3MiniMax42,1 %1 juin 2026Auto-déclaré
7Qwen3.7-PlusQwen41,1 %31 mai 2026Auto-déclaré
8MiniMax M2.7MiniMax39,8 %18 mars 2026Auto-déclaré
9Qwen3.6 PlusQwen37,9 %31 mars 2026Auto-déclaré
10Qwen3.6-27BQwen36,2 %21 avril 2026Auto-déclaré
11Qwen3.6-35B-A3BQwen29,4 %16 avril 2026Auto-déclaré

Classement établi sur 11 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 42,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur NL2Repo indique qu’un modèle parvient plus souvent à produire un dépôt Python complet dont les tests passent, ce qui reflète une compétence de planification, d’intégration et de cohérence multi-fichiers. La métrique, fondée sur le taux de réussite des tests, apporte un signal concret, mais la fiabilité du classement reste à interpréter avec prudence car les scores sont majoritairement auto-déclarés par les éditeurs, plutôt que systématiquement mesurés par une procédure indépendante. Le benchmark reste aussi limité par sa portée, centrée sur des bibliothèques Python générées depuis l’anglais, et par les risques classiques de contamination ou d’adaptation aux tâches publiques. Les résultats disponibles suggèrent un niveau encore peu saturé : le score médian de l’ensemble reste modéré et le meilleur résultat, obtenu par GLM-5.2, ne se détache que partiellement. Le classement met donc surtout en évidence les modèles les plus robustes sur des tâches de construction de dépôt, sans constituer à lui seul une mesure générale de compétence en ingénierie logicielle.


Sources des scores : llm-stats.