Connaissances & sciences

MBPP

MBPP, pour Mostly Basic Python Problems, est un benchmark de Google Research conçu par J. Austin et al. pour évaluer la génération de code Python à partir d’énoncés en langage naturel. Il rassemble des problèmes courts, issus du crowdsourcing, pensés pour être résolus par des…

Le benchmark mesure la capacité d’un modèle à produire directement un programme Python correct, validé par des tests automatisés. Il sert ainsi de repère ciblé pour apprécier les bases de programmation, le raisonnement procédural et l’usage de la bibliothèque standard dans les modèles de langage.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google Research (J. Austin et al.)
Capacités mesurées	généraliste, raisonnement
Modalité	Texte
Type de questions	génération de code Python
Métrique d'évaluation	pass@1
Accès	Public
Licence	CC-BY-4.0
Langues	anglais; Python
Taille du jeu	974 problèmes
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Sarvam-30B	sarvamai	92,7 %	6 mars 2026	Auto-déclaré
2	Llama-3.3 Nemotron Super 49B v1	NVIDIA	91,3 %	18 mars 2025	Auto-déclaré
3	Qwen2.5-Coder 32B Instruct	Qwen	90,2 %	19 septembre 2024	Auto-déclaré
4	MiniCPM-SALA	OpenBMB	89,1 %	11 février 2026	Auto-déclaré
5	Qwen2.5 72B Instruct	Qwen	88,2 %	19 septembre 2024	Auto-déclaré
6	Llama 3.1 Nemotron Nano 8B V1	NVIDIA	84,6 %	18 mars 2025	Auto-déclaré
7	Qwen2.5 32B Instruct	Qwen	84,0 %	19 septembre 2024	Auto-déclaré
8	Qwen2.5 VL 32B Instruct	Qwen	84,0 %	28 février 2025	Auto-déclaré
9	Qwen2.5-Coder 7B Instruct	Qwen	83,5 %	19 septembre 2024	Auto-déclaré
10	Qwen2.5 14B Instruct	Qwen	82,0 %	19 septembre 2024	Auto-déclaré
11	Qwen3 235B A22B	Qwen	81,4 %	25 juillet 2025	Auto-déclaré
12	Phi-3.5-MoE-instruct	Microsoft	80,8 %	23 août 2024	Auto-déclaré
13	Qwen2 72B Instruct	Qwen	80,2 %	23 juillet 2024	Auto-déclaré
14	Qwen2.5 7B Instruct	Qwen	79,2 %	19 septembre 2024	Auto-déclaré
15	Codestral-22B	Mistral AI	78,2 %	29 mai 2024	Auto-déclaré
16	Llama 4 Maverick	Meta	77,6 %	5 avril 2025	Auto-déclaré
17	Gemini Diffusion	Google	76,0 %	20 mai 2025	Auto-déclaré
18	Mistral Small 3.1 24B Instruct	Mistral AI	74,7 %	17 mars 2025	Auto-déclaré
19	Gemma 3 27B	Google	74,4 %	12 mars 2025	Auto-déclaré
20	Qwen2.5-Omni-7B	Qwen	73,2 %	27 mars 2025	Auto-déclaré

Classement établi sur 33 modèles évalués, dont 31 de grands éditeurs. Score médian de l'ensemble : 76,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MBPP indique qu’un modèle sait transformer des consignes simples en code Python fonctionnel, avec une bonne maîtrise des structures de base et de certaines fonctions de la bibliothèque standard. La métrique pass@1 valorise la première réponse correcte, ce qui en fait un indicateur utile de fiabilité immédiate plutôt que de performance après plusieurs essais. Dans la base, le classement couvre 33 modèles, avec un score médian de 76% et un meilleur résultat de 93% pour Sarvam-30B (sarvamai), ce qui suggère un niveau déjà élevé sur ce type de tâches.

La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs.
La portée reste limitée à de courts problèmes Python, principalement centrés sur des fondamentaux et la bibliothèque standard.
La saturation possible du benchmark et le risque de contamination des données d’entraînement peuvent réduire son pouvoir discriminant entre modèles avancés.

Sources des scores : llm-stats.

MBPP

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench