Natural2Code

Natural2Code est un benchmark de Google DeepMind consacré à la génération de code à partir d’énoncés en langage naturel. Il évalue la capacité d’un modèle à produire directement du code Python correct, dans un format proche de HumanEval, sur des tâches conçues pour refléter des demandes…

Natural2Code est un benchmark de Google DeepMind consacré à la génération de code à partir d’énoncés en langage naturel. Il évalue la capacité d’un modèle à produire directement du code Python correct, dans un format proche de HumanEval, sur des tâches conçues pour refléter des demandes de programmation réalistes.

Son intérêt principal est de tester la performance pratique des modèles de langage sur des problèmes tenus à l’écart des données web publiques. Il sert ainsi de repère pour comparer la fiabilité des modèles lorsqu’une réponse de code unique est attendue.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind
Capacités mesuréesGeneration de code Python sur un jeu held-out interne concu pour eviter la fuite de donnees web
ModalitéTexte
Type de questionsGeneration de code Python (format HumanEval, reponse de code)
Métrique d'évaluationpass@1
AccèsJeu de test privé (réponses non divulguées)
LanguesAnglais (enonces), code Python
Taille du jeu402 problèmes
Année de publication2023
RessourcesArticle scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.0 FlashGoogle92,9 %21 janvier 2025Auto-déclaré
2Gemini 1.5 ProGoogle85,4 %1 mai 2024Auto-déclaré
3Gemma 3 27BGoogle84,5 %12 mars 2025Auto-déclaré
4Gemma 3 12BGoogle80,7 %12 mars 2025Auto-déclaré
5Gemini 1.5 FlashGoogle79,8 %1 mai 2024Auto-déclaré
6Gemini 1.5 Flash 8BGoogle75,5 %15 mars 2024Auto-déclaré
7Gemma 3 4BGoogle70,3 %12 mars 2025Auto-déclaré
8Gemma 3 1BGoogle56,0 %12 mars 2025Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Natural2Code indique qu’un modèle parvient souvent à générer une solution Python correcte dès la première tentative, selon la métrique pass@1. Le caractère privé du jeu de test et la non-divulgation des réponses renforcent la valeur du benchmark, car ils limitent les risques de mémorisation directe. Cette rigueur doit toutefois être nuancée: les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui rend la comparabilité dépendante du respect des protocoles d’évaluation. Les limites portent aussi sur la portée du test, centré ici sur des énoncés en anglais et du code Python, ainsi que sur le fait que pass@1 ne mesure pas l’itération, le débogage assisté ou la maintenance du code. Avec une médiane déjà élevée et un meilleur score atteint par Gemini 2.0 Flash (Google), le classement suggère un benchmark exigeant mais potentiellement proche d’une zone de saturation pour les modèles les plus performants.


Sources des scores : llm-stats.