MBPP
MBPP, pour Mostly Basic Python Problems, est un benchmark de Google Research conçu par J. Austin et al. pour évaluer la génération de code Python à partir d’énoncés en langage naturel. Il rassemble des problèmes courts, issus du crowdsourcing, pensés pour être résolus par des…
MBPP, pour Mostly Basic Python Problems, est un benchmark de Google Research conçu par J. Austin et al. pour évaluer la génération de code Python à partir d’énoncés en langage naturel. Il rassemble des problèmes courts, issus du crowdsourcing, pensés pour être résolus par des programmeurs débutants.
Le benchmark mesure la capacité d’un modèle à produire directement un programme Python correct, validé par des tests automatisés. Il sert ainsi de repère ciblé pour apprécier les bases de programmation, le raisonnement procédural et l’usage de la bibliothèque standard dans les modèles de langage.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google Research (J. Austin et al.) |
| Capacités mesurées | généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | génération de code Python |
| Métrique d'évaluation | pass@1 |
| Accès | Public |
| Licence | CC-BY-4.0 |
| Langues | anglais; Python |
| Taille du jeu | 974 problèmes |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Sarvam-30B | sarvamai | 92,7 % | 6 mars 2026 | Auto-déclaré |
| 2 | Llama-3.3 Nemotron Super 49B v1 | NVIDIA | 91,3 % | 18 mars 2025 | Auto-déclaré |
| 3 | Qwen2.5-Coder 32B Instruct | Qwen | 90,2 % | 19 septembre 2024 | Auto-déclaré |
| 4 | MiniCPM-SALA | OpenBMB | 89,1 % | 11 février 2026 | Auto-déclaré |
| 5 | Qwen2.5 72B Instruct | Qwen | 88,2 % | 19 septembre 2024 | Auto-déclaré |
| 6 | Llama 3.1 Nemotron Nano 8B V1 | NVIDIA | 84,6 % | 18 mars 2025 | Auto-déclaré |
| 7 | Qwen2.5 32B Instruct | Qwen | 84,0 % | 19 septembre 2024 | Auto-déclaré |
| 8 | Qwen2.5 VL 32B Instruct | Qwen | 84,0 % | 28 février 2025 | Auto-déclaré |
| 9 | Qwen2.5-Coder 7B Instruct | Qwen | 83,5 % | 19 septembre 2024 | Auto-déclaré |
| 10 | Qwen2.5 14B Instruct | Qwen | 82,0 % | 19 septembre 2024 | Auto-déclaré |
| 11 | Qwen3 235B A22B | Qwen | 81,4 % | 25 juillet 2025 | Auto-déclaré |
| 12 | Phi-3.5-MoE-instruct | Microsoft | 80,8 % | 23 août 2024 | Auto-déclaré |
| 13 | Qwen2 72B Instruct | Qwen | 80,2 % | 23 juillet 2024 | Auto-déclaré |
| 14 | Qwen2.5 7B Instruct | Qwen | 79,2 % | 19 septembre 2024 | Auto-déclaré |
| 15 | Codestral-22B | Mistral AI | 78,2 % | 29 mai 2024 | Auto-déclaré |
| 16 | Llama 4 Maverick | Meta | 77,6 % | 5 avril 2025 | Auto-déclaré |
| 17 | Gemini Diffusion | 76,0 % | 20 mai 2025 | Auto-déclaré | |
| 18 | Mistral Small 3.1 24B Instruct | Mistral AI | 74,7 % | 17 mars 2025 | Auto-déclaré |
| 19 | Gemma 3 27B | 74,4 % | 12 mars 2025 | Auto-déclaré | |
| 20 | Qwen2.5-Omni-7B | Qwen | 73,2 % | 27 mars 2025 | Auto-déclaré |
Classement établi sur 33 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 76,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MBPP indique qu’un modèle sait transformer des consignes simples en code Python fonctionnel, avec une bonne maîtrise des structures de base et de certaines fonctions de la bibliothèque standard. La métrique pass@1 valorise la première réponse correcte, ce qui en fait un indicateur utile de fiabilité immédiate plutôt que de performance après plusieurs essais. Dans la base, le classement couvre 33 modèles, avec un score médian de 76% et un meilleur résultat de 93% pour Sarvam-30B (sarvamai), ce qui suggère un niveau déjà élevé sur ce type de tâches.
- La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs.
- La portée reste limitée à de courts problèmes Python, principalement centrés sur des fondamentaux et la bibliothèque standard.
- La saturation possible du benchmark et le risque de contamination des données d’entraînement peuvent réduire son pouvoir discriminant entre modèles avancés.
Sources des scores : llm-stats.