Langage & rédaction

MultiPL-E

MultiPL-E est un benchmark de génération de code créé par F. Cassano et al. Il adapte des tâches issues de HumanEval et de MBPP afin d’évaluer des modèles capables de produire du code à partir de spécifications textuelles et de tests unitaires.

Son intérêt est de déplacer l’évaluation au-delà de Python, vers un ensemble multilingue de langages de programmation. MultiPL-E sert ainsi à comparer la robustesse des modèles de code face à différents paradigmes, syntaxes et caractéristiques de langages.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	F. Cassano et al.
Capacités mesurées	généraliste, langage
Modalité	Texte
Type de questions	génération de code
Métrique d'évaluation	pass@1
Accès	Public
Licence	MIT
Langues	anglais pour les énoncés ; multilingue en langages de programmation
Taille du jeu	164 tâches HumanEval et environ 974 tâches MBPP, traduites dans 18 langages de programmation supplémentaires
Année de publication	2022
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3-235B-A22B-Instruct-2507	Qwen	87,9 %	22 juillet 2025	Auto-déclaré
2	Qwen3-Next-80B-A3B-Instruct	Qwen	87,8 %	10 septembre 2025	Auto-déclaré
3	Qwen3 VL 235B A22B Instruct	Qwen	86,1 %	22 septembre 2025	Auto-déclaré
4	Kimi K2 Instruct	Moonshot AI	85,7 %	11 juillet 2025	Auto-déclaré
5	Kimi K2-Instruct-0905	Moonshot AI	85,7 %	5 septembre 2025	Auto-déclaré
6	Qwen2.5 32B Instruct	Qwen	75,4 %	19 septembre 2024	Auto-déclaré
7	Qwen2.5 72B Instruct	Qwen	75,1 %	19 septembre 2024	Auto-déclaré
8	Qwen2.5 14B Instruct	Qwen	72,8 %	19 septembre 2024	Auto-déclaré
9	Qwen2.5 7B Instruct	Qwen	70,4 %	19 septembre 2024	Auto-déclaré
10	Qwen2 72B Instruct	Qwen	69,2 %	23 juillet 2024	Auto-déclaré
11	Qwen3 235B A22B	Qwen	65,9 %	25 juillet 2025	Auto-déclaré
12	Qwen2.5-Omni-7B	Qwen	65,8 %	27 mars 2025	Auto-déclaré
13	Qwen2 7B Instruct	Qwen	59,1 %	23 juillet 2024	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 75,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MultiPL-E indique qu’un modèle parvient fréquemment à générer, dès la première tentative mesurée par pass@1, un programme qui satisfait les tests unitaires associés. Le classement observé dans la base montre un niveau global déjà élevé, avec une médiane à 75% sur 13 modèles évalués et un meilleur score de 88% pour Qwen3-235B-A22B-Instruct-2507. Cela suggère que les meilleurs modèles maîtrisent relativement bien la traduction de consignes en code exécutable dans plusieurs langages.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite l’homogénéité des conditions de mesure. Le benchmark peut aussi être sensible à la saturation, puisque les tâches dérivent de jeux connus comme HumanEval et MBPP, ainsi qu’à un risque de contamination des données d’entraînement. Enfin, MultiPL-E évalue surtout la génération de fonctions vérifiées par tests unitaires, et ne couvre pas toute la complexité du développement logiciel réel.

Sources des scores : llm-stats.

MultiPL-E

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23