Natural2Code
Natural2Code est un benchmark de Google DeepMind consacré à la génération de code à partir d’énoncés en langage naturel. Il évalue la capacité d’un modèle à produire directement du code Python correct, dans un format proche de HumanEval, sur des tâches conçues pour refléter des demandes…
Natural2Code est un benchmark de Google DeepMind consacré à la génération de code à partir d’énoncés en langage naturel. Il évalue la capacité d’un modèle à produire directement du code Python correct, dans un format proche de HumanEval, sur des tâches conçues pour refléter des demandes de programmation réalistes.
Son intérêt principal est de tester la performance pratique des modèles de langage sur des problèmes tenus à l’écart des données web publiques. Il sert ainsi de repère pour comparer la fiabilité des modèles lorsqu’une réponse de code unique est attendue.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google DeepMind |
| Capacités mesurées | Generation de code Python sur un jeu held-out interne concu pour eviter la fuite de donnees web |
| Modalité | Texte |
| Type de questions | Generation de code Python (format HumanEval, reponse de code) |
| Métrique d'évaluation | pass@1 |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | Anglais (enonces), code Python |
| Taille du jeu | 402 problèmes |
| Année de publication | 2023 |
| Ressources | Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.0 Flash | 92,9 % | 21 janvier 2025 | Auto-déclaré | |
| 2 | Gemini 1.5 Pro | 85,4 % | 1 mai 2024 | Auto-déclaré | |
| 3 | Gemma 3 27B | 84,5 % | 12 mars 2025 | Auto-déclaré | |
| 4 | Gemma 3 12B | 80,7 % | 12 mars 2025 | Auto-déclaré | |
| 5 | Gemini 1.5 Flash | 79,8 % | 1 mai 2024 | Auto-déclaré | |
| 6 | Gemini 1.5 Flash 8B | 75,5 % | 15 mars 2024 | Auto-déclaré | |
| 7 | Gemma 3 4B | 70,3 % | 12 mars 2025 | Auto-déclaré | |
| 8 | Gemma 3 1B | 56,0 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Natural2Code indique qu’un modèle parvient souvent à générer une solution Python correcte dès la première tentative, selon la métrique pass@1. Le caractère privé du jeu de test et la non-divulgation des réponses renforcent la valeur du benchmark, car ils limitent les risques de mémorisation directe. Cette rigueur doit toutefois être nuancée: les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui rend la comparabilité dépendante du respect des protocoles d’évaluation. Les limites portent aussi sur la portée du test, centré ici sur des énoncés en anglais et du code Python, ainsi que sur le fait que pass@1 ne mesure pas l’itération, le débogage assisté ou la maintenance du code. Avec une médiane déjà élevée et un meilleur score atteint par Gemini 2.0 Flash (Google), le classement suggère un benchmark exigeant mais potentiellement proche d’une zone de saturation pour les modèles les plus performants.
Sources des scores : llm-stats.