Connaissances & sciences

Natural2Code

Natural2Code est un benchmark de Google DeepMind consacré à la génération de code à partir d’énoncés en langage naturel. Il évalue la capacité d’un modèle à produire directement du code Python correct, dans un format proche de HumanEval, sur des tâches conçues pour refléter des demandes…

Son intérêt principal est de tester la performance pratique des modèles de langage sur des problèmes tenus à l’écart des données web publiques. Il sert ainsi de repère pour comparer la fiabilité des modèles lorsqu’une réponse de code unique est attendue.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind
Capacités mesurées	Generation de code Python sur un jeu held-out interne concu pour eviter la fuite de donnees web
Modalité	Texte
Type de questions	Generation de code Python (format HumanEval, reponse de code)
Métrique d'évaluation	pass@1
Accès	Jeu de test privé (réponses non divulguées)
Langues	Anglais (enonces), code Python
Taille du jeu	402 problèmes
Année de publication	2023
Ressources	Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.0 Flash	Google	92,9 %	21 janvier 2025	Auto-déclaré
2	Gemini 1.5 Pro	Google	85,4 %	1 mai 2024	Auto-déclaré
3	Gemma 3 27B	Google	84,5 %	12 mars 2025	Auto-déclaré
4	Gemma 3 12B	Google	80,7 %	12 mars 2025	Auto-déclaré
5	Gemini 1.5 Flash	Google	79,8 %	1 mai 2024	Auto-déclaré
6	Gemini 1.5 Flash 8B	Google	75,5 %	15 mars 2024	Auto-déclaré
7	Gemma 3 4B	Google	70,3 %	12 mars 2025	Auto-déclaré
8	Gemma 3 1B	Google	56,0 %	12 mars 2025	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Natural2Code indique qu’un modèle parvient souvent à générer une solution Python correcte dès la première tentative, selon la métrique pass@1. Le caractère privé du jeu de test et la non-divulgation des réponses renforcent la valeur du benchmark, car ils limitent les risques de mémorisation directe. Cette rigueur doit toutefois être nuancée: les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui rend la comparabilité dépendante du respect des protocoles d’évaluation. Les limites portent aussi sur la portée du test, centré ici sur des énoncés en anglais et du code Python, ainsi que sur le fait que pass@1 ne mesure pas l’itération, le débogage assisté ou la maintenance du code. Avec une médiane déjà élevée et un meilleur score atteint par Gemini 2.0 Flash (Google), le classement suggère un benchmark exigeant mais potentiellement proche d’une zone de saturation pour les modèles les plus performants.

Sources des scores : llm-stats.

Natural2Code

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench