NL2Repo
NL2Repo est un benchmark public publié en 2025 pour évaluer la génération autonome de dépôts logiciels à partir de spécifications en langage naturel. Les informations disponibles ne précisent pas l’organisation ou l’équipe à l’origine du benchmark.
NL2Repo est un benchmark public publié en 2025 pour évaluer la génération autonome de dépôts logiciels à partir de spécifications en langage naturel. Les informations disponibles ne précisent pas l’organisation ou l’équipe à l’origine du benchmark.
Il cible le codage long-horizon, au-delà de la résolution de fonctions isolées : conception d’architecture, gestion des dépendances, implémentation sur plusieurs fichiers et packaging d’une bibliothèque Python complète. Son intérêt est de tester la capacité d’un modèle à maintenir une cohérence de dépôt et à produire du code exécutable dans un cadre proche d’un projet logiciel réel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Capacités mesurées | Codage long-horizon : conception architecturale, gestion des dépendances, implémentation multi-fichiers et packaging d'un dépôt complet de façon autonome |
| Modalité | Texte |
| Type de questions | génération de dépôt complet (bibliothèque Python) à partir d'une spécification en langage naturel |
| Métrique d'évaluation | taux de réussite des tests (test pass rate) |
| Accès | Public |
| Langues | anglais (génère des bibliothèques Python) |
| Taille du jeu | 104 tâches (documents d'entrée ≈19k tokens en moyenne) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GLM-5.2 | Zhipu AI | 48,9 % | 16 juin 2026 | Auto-déclaré |
| 2 | Qwen3.7 Max | Qwen | 47,2 % | 19 mai 2026 | Auto-déclaré |
| 3 | Seed 2.1 Pro | bytedance | 47,0 % | 24 juin 2026 | Auto-déclaré |
| 4 | Seed 2.1 Turbo | bytedance | 43,7 % | 24 juin 2026 | Auto-déclaré |
| 5 | GLM-5.1 | Zhipu AI | 42,7 % | 7 avril 2026 | Auto-déclaré |
| 6 | MiniMax M3 | MiniMax | 42,1 % | 1 juin 2026 | Auto-déclaré |
| 7 | Qwen3.7-Plus | Qwen | 41,1 % | 31 mai 2026 | Auto-déclaré |
| 8 | MiniMax M2.7 | MiniMax | 39,8 % | 18 mars 2026 | Auto-déclaré |
| 9 | Qwen3.6 Plus | Qwen | 37,9 % | 31 mars 2026 | Auto-déclaré |
| 10 | Qwen3.6-27B | Qwen | 36,2 % | 21 avril 2026 | Auto-déclaré |
| 11 | Qwen3.6-35B-A3B | Qwen | 29,4 % | 16 avril 2026 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 42,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur NL2Repo indique qu’un modèle parvient plus souvent à produire un dépôt Python complet dont les tests passent, ce qui reflète une compétence de planification, d’intégration et de cohérence multi-fichiers. La métrique, fondée sur le taux de réussite des tests, apporte un signal concret, mais la fiabilité du classement reste à interpréter avec prudence car les scores sont majoritairement auto-déclarés par les éditeurs, plutôt que systématiquement mesurés par une procédure indépendante. Le benchmark reste aussi limité par sa portée, centrée sur des bibliothèques Python générées depuis l’anglais, et par les risques classiques de contamination ou d’adaptation aux tâches publiques. Les résultats disponibles suggèrent un niveau encore peu saturé : le score médian de l’ensemble reste modéré et le meilleur résultat, obtenu par GLM-5.2, ne se détache que partiellement. Le classement met donc surtout en évidence les modèles les plus robustes sur des tâches de construction de dépôt, sans constituer à lui seul une mesure générale de compétence en ingénierie logicielle.
Sources des scores : llm-stats.