MultiPL-E
MultiPL-E est un benchmark de génération de code créé par F. Cassano et al. Il adapte des tâches issues de HumanEval et de MBPP afin d’évaluer des modèles capables de produire du code à partir de spécifications textuelles et de tests unitaires.
MultiPL-E est un benchmark de génération de code créé par F. Cassano et al. Il adapte des tâches issues de HumanEval et de MBPP afin d’évaluer des modèles capables de produire du code à partir de spécifications textuelles et de tests unitaires.
Son intérêt est de déplacer l’évaluation au-delà de Python, vers un ensemble multilingue de langages de programmation. MultiPL-E sert ainsi à comparer la robustesse des modèles de code face à différents paradigmes, syntaxes et caractéristiques de langages.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | F. Cassano et al. |
| Capacités mesurées | généraliste, langage |
| Modalité | Texte |
| Type de questions | génération de code |
| Métrique d'évaluation | pass@1 |
| Accès | Public |
| Licence | MIT |
| Langues | anglais pour les énoncés ; multilingue en langages de programmation |
| Taille du jeu | 164 tâches HumanEval et environ 974 tâches MBPP, traduites dans 18 langages de programmation supplémentaires |
| Année de publication | 2022 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 87,9 % | 22 juillet 2025 | Auto-déclaré |
| 2 | Qwen3-Next-80B-A3B-Instruct | Qwen | 87,8 % | 10 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 86,1 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Kimi K2 Instruct | Moonshot AI | 85,7 % | 11 juillet 2025 | Auto-déclaré |
| 5 | Kimi K2-Instruct-0905 | Moonshot AI | 85,7 % | 5 septembre 2025 | Auto-déclaré |
| 6 | Qwen2.5 32B Instruct | Qwen | 75,4 % | 19 septembre 2024 | Auto-déclaré |
| 7 | Qwen2.5 72B Instruct | Qwen | 75,1 % | 19 septembre 2024 | Auto-déclaré |
| 8 | Qwen2.5 14B Instruct | Qwen | 72,8 % | 19 septembre 2024 | Auto-déclaré |
| 9 | Qwen2.5 7B Instruct | Qwen | 70,4 % | 19 septembre 2024 | Auto-déclaré |
| 10 | Qwen2 72B Instruct | Qwen | 69,2 % | 23 juillet 2024 | Auto-déclaré |
| 11 | Qwen3 235B A22B | Qwen | 65,9 % | 25 juillet 2025 | Auto-déclaré |
| 12 | Qwen2.5-Omni-7B | Qwen | 65,8 % | 27 mars 2025 | Auto-déclaré |
| 13 | Qwen2 7B Instruct | Qwen | 59,1 % | 23 juillet 2024 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 75,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MultiPL-E indique qu’un modèle parvient fréquemment à générer, dès la première tentative mesurée par pass@1, un programme qui satisfait les tests unitaires associés. Le classement observé dans la base montre un niveau global déjà élevé, avec une médiane à 75% sur 13 modèles évalués et un meilleur score de 88% pour Qwen3-235B-A22B-Instruct-2507. Cela suggère que les meilleurs modèles maîtrisent relativement bien la traduction de consignes en code exécutable dans plusieurs langages.
La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite l’homogénéité des conditions de mesure. Le benchmark peut aussi être sensible à la saturation, puisque les tâches dérivent de jeux connus comme HumanEval et MBPP, ainsi qu’à un risque de contamination des données d’entraînement. Enfin, MultiPL-E évalue surtout la génération de fonctions vérifiées par tests unitaires, et ne couvre pas toute la complexité du développement logiciel réel.
Sources des scores : llm-stats.