Code & programmation

NL2Repo

NL2Repo est un benchmark public publié en 2025 pour évaluer la génération autonome de dépôts logiciels à partir de spécifications en langage naturel. Les informations disponibles ne précisent pas l’organisation ou l’équipe à l’origine du benchmark.

Il cible le codage long-horizon, au-delà de la résolution de fonctions isolées : conception d’architecture, gestion des dépendances, implémentation sur plusieurs fichiers et packaging d’une bibliothèque Python complète. Son intérêt est de tester la capacité d’un modèle à maintenir une cohérence de dépôt et à produire du code exécutable dans un cadre proche d’un projet logiciel réel.

Carte d'identité

Caractéristique	Valeur
Capacités mesurées	Codage long-horizon : conception architecturale, gestion des dépendances, implémentation multi-fichiers et packaging d'un dépôt complet de façon autonome
Modalité	Texte
Type de questions	génération de dépôt complet (bibliothèque Python) à partir d'une spécification en langage naturel
Métrique d'évaluation	taux de réussite des tests (test pass rate)
Accès	Public
Langues	anglais (génère des bibliothèques Python)
Taille du jeu	104 tâches (documents d'entrée ≈19k tokens en moyenne)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GLM-5.2	Zhipu AI	48,9 %	16 juin 2026	Auto-déclaré
2	Qwen3.7 Max	Qwen	47,2 %	19 mai 2026	Auto-déclaré
3	Seed 2.1 Pro	bytedance	47,0 %	24 juin 2026	Auto-déclaré
4	Seed 2.1 Turbo	bytedance	43,7 %	24 juin 2026	Auto-déclaré
5	GLM-5.1	Zhipu AI	42,7 %	7 avril 2026	Auto-déclaré
6	MiniMax M3	MiniMax	42,1 %	1 juin 2026	Auto-déclaré
7	Qwen3.7-Plus	Qwen	41,1 %	31 mai 2026	Auto-déclaré
8	MiniMax M2.7	MiniMax	39,8 %	18 mars 2026	Auto-déclaré
9	Qwen3.6 Plus	Qwen	37,9 %	31 mars 2026	Auto-déclaré
10	Qwen3.6-27B	Qwen	36,2 %	21 avril 2026	Auto-déclaré
11	Qwen3.6-35B-A3B	Qwen	29,4 %	16 avril 2026	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 42,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur NL2Repo indique qu’un modèle parvient plus souvent à produire un dépôt Python complet dont les tests passent, ce qui reflète une compétence de planification, d’intégration et de cohérence multi-fichiers. La métrique, fondée sur le taux de réussite des tests, apporte un signal concret, mais la fiabilité du classement reste à interpréter avec prudence car les scores sont majoritairement auto-déclarés par les éditeurs, plutôt que systématiquement mesurés par une procédure indépendante. Le benchmark reste aussi limité par sa portée, centrée sur des bibliothèques Python générées depuis l’anglais, et par les risques classiques de contamination ou d’adaptation aux tâches publiques. Les résultats disponibles suggèrent un niveau encore peu saturé : le score médian de l’ensemble reste modéré et le meilleur résultat, obtenu par GLM-5.2, ne se détache que partiellement. Le classement met donc surtout en évidence les modèles les plus robustes sur des tâches de construction de dépôt, sans constituer à lui seul une mesure générale de compétence en ingénierie logicielle.

Sources des scores : llm-stats.

NL2Repo

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench