MBPP

MBPP, pour Mostly Basic Python Problems, est un benchmark de Google Research conçu par J. Austin et al. pour évaluer la génération de code Python à partir d’énoncés en langage naturel. Il rassemble des problèmes courts, issus du crowdsourcing, pensés pour être résolus par des…

MBPP, pour Mostly Basic Python Problems, est un benchmark de Google Research conçu par J. Austin et al. pour évaluer la génération de code Python à partir d’énoncés en langage naturel. Il rassemble des problèmes courts, issus du crowdsourcing, pensés pour être résolus par des programmeurs débutants.

Le benchmark mesure la capacité d’un modèle à produire directement un programme Python correct, validé par des tests automatisés. Il sert ainsi de repère ciblé pour apprécier les bases de programmation, le raisonnement procédural et l’usage de la bibliothèque standard dans les modèles de langage.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle Research (J. Austin et al.)
Capacités mesuréesgénéraliste, raisonnement
ModalitéTexte
Type de questionsgénération de code Python
Métrique d'évaluationpass@1
AccèsPublic
LicenceCC-BY-4.0
Languesanglais; Python
Taille du jeu974 problèmes
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Sarvam-30Bsarvamai92,7 %6 mars 2026Auto-déclaré
2Llama-3.3 Nemotron Super 49B v1NVIDIA91,3 %18 mars 2025Auto-déclaré
3Qwen2.5-Coder 32B InstructQwen90,2 %19 septembre 2024Auto-déclaré
4MiniCPM-SALAOpenBMB89,1 %11 février 2026Auto-déclaré
5Qwen2.5 72B InstructQwen88,2 %19 septembre 2024Auto-déclaré
6Llama 3.1 Nemotron Nano 8B V1NVIDIA84,6 %18 mars 2025Auto-déclaré
7Qwen2.5 32B InstructQwen84,0 %19 septembre 2024Auto-déclaré
8Qwen2.5 VL 32B InstructQwen84,0 %28 février 2025Auto-déclaré
9Qwen2.5-Coder 7B InstructQwen83,5 %19 septembre 2024Auto-déclaré
10Qwen2.5 14B InstructQwen82,0 %19 septembre 2024Auto-déclaré
11Qwen3 235B A22BQwen81,4 %25 juillet 2025Auto-déclaré
12Phi-3.5-MoE-instructMicrosoft80,8 %23 août 2024Auto-déclaré
13Qwen2 72B InstructQwen80,2 %23 juillet 2024Auto-déclaré
14Qwen2.5 7B InstructQwen79,2 %19 septembre 2024Auto-déclaré
15Codestral-22BMistral AI78,2 %29 mai 2024Auto-déclaré
16Llama 4 MaverickMeta77,6 %5 avril 2025Auto-déclaré
17Gemini DiffusionGoogle76,0 %20 mai 2025Auto-déclaré
18Mistral Small 3.1 24B InstructMistral AI74,7 %17 mars 2025Auto-déclaré
19Gemma 3 27BGoogle74,4 %12 mars 2025Auto-déclaré
20Qwen2.5-Omni-7BQwen73,2 %27 mars 2025Auto-déclaré

Classement établi sur 33 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 76,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MBPP indique qu’un modèle sait transformer des consignes simples en code Python fonctionnel, avec une bonne maîtrise des structures de base et de certaines fonctions de la bibliothèque standard. La métrique pass@1 valorise la première réponse correcte, ce qui en fait un indicateur utile de fiabilité immédiate plutôt que de performance après plusieurs essais. Dans la base, le classement couvre 33 modèles, avec un score médian de 76% et un meilleur résultat de 93% pour Sarvam-30B (sarvamai), ce qui suggère un niveau déjà élevé sur ce type de tâches.

  • La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs.
  • La portée reste limitée à de courts problèmes Python, principalement centrés sur des fondamentaux et la bibliothèque standard.
  • La saturation possible du benchmark et le risque de contamination des données d’entraînement peuvent réduire son pouvoir discriminant entre modèles avancés.

Sources des scores : llm-stats.