MultiPL-E

MultiPL-E est un benchmark de génération de code créé par F. Cassano et al. Il adapte des tâches issues de HumanEval et de MBPP afin d’évaluer des modèles capables de produire du code à partir de spécifications textuelles et de tests unitaires.

MultiPL-E est un benchmark de génération de code créé par F. Cassano et al. Il adapte des tâches issues de HumanEval et de MBPP afin d’évaluer des modèles capables de produire du code à partir de spécifications textuelles et de tests unitaires.

Son intérêt est de déplacer l’évaluation au-delà de Python, vers un ensemble multilingue de langages de programmation. MultiPL-E sert ainsi à comparer la robustesse des modèles de code face à différents paradigmes, syntaxes et caractéristiques de langages.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkF. Cassano et al.
Capacités mesuréesgénéraliste, langage
ModalitéTexte
Type de questionsgénération de code
Métrique d'évaluationpass@1
AccèsPublic
LicenceMIT
Languesanglais pour les énoncés ; multilingue en langages de programmation
Taille du jeu164 tâches HumanEval et environ 974 tâches MBPP, traduites dans 18 langages de programmation supplémentaires
Année de publication2022
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3-235B-A22B-Instruct-2507Qwen87,9 %22 juillet 2025Auto-déclaré
2Qwen3-Next-80B-A3B-InstructQwen87,8 %10 septembre 2025Auto-déclaré
3Qwen3 VL 235B A22B InstructQwen86,1 %22 septembre 2025Auto-déclaré
4Kimi K2 InstructMoonshot AI85,7 %11 juillet 2025Auto-déclaré
5Kimi K2-Instruct-0905Moonshot AI85,7 %5 septembre 2025Auto-déclaré
6Qwen2.5 32B InstructQwen75,4 %19 septembre 2024Auto-déclaré
7Qwen2.5 72B InstructQwen75,1 %19 septembre 2024Auto-déclaré
8Qwen2.5 14B InstructQwen72,8 %19 septembre 2024Auto-déclaré
9Qwen2.5 7B InstructQwen70,4 %19 septembre 2024Auto-déclaré
10Qwen2 72B InstructQwen69,2 %23 juillet 2024Auto-déclaré
11Qwen3 235B A22BQwen65,9 %25 juillet 2025Auto-déclaré
12Qwen2.5-Omni-7BQwen65,8 %27 mars 2025Auto-déclaré
13Qwen2 7B InstructQwen59,1 %23 juillet 2024Auto-déclaré

Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 75,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MultiPL-E indique qu’un modèle parvient fréquemment à générer, dès la première tentative mesurée par pass@1, un programme qui satisfait les tests unitaires associés. Le classement observé dans la base montre un niveau global déjà élevé, avec une médiane à 75% sur 13 modèles évalués et un meilleur score de 88% pour Qwen3-235B-A22B-Instruct-2507. Cela suggère que les meilleurs modèles maîtrisent relativement bien la traduction de consignes en code exécutable dans plusieurs langages.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite l’homogénéité des conditions de mesure. Le benchmark peut aussi être sensible à la saturation, puisque les tâches dérivent de jeux connus comme HumanEval et MBPP, ainsi qu’à un risque de contamination des données d’entraînement. Enfin, MultiPL-E évalue surtout la génération de fonctions vérifiées par tests unitaires, et ne couvre pas toute la complexité du développement logiciel réel.


Sources des scores : llm-stats.