HumanEval+

HumanEval+ est un benchmark de génération de code Python conçu pour évaluer la correction fonctionnelle des programmes produits par des modèles d’IA. Créé par Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et l’équipe EvalPlus, il prolonge HumanEval avec une suite de tests…

HumanEval+ est un benchmark de génération de code Python conçu pour évaluer la correction fonctionnelle des programmes produits par des modèles d’IA. Créé par Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et l’équipe EvalPlus, il prolonge HumanEval avec une suite de tests unitaires nettement plus dense.

Son objectif est de repérer des solutions qui paraissent correctes sur les tests originaux, mais échouent sur des cas supplémentaires. Il sert ainsi de référence plus stricte pour comparer la capacité des modèles à synthétiser du code robuste, au-delà d’une simple conformité superficielle aux exemples fournis.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkJiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et al. (EvalPlus)
Capacités mesuréesraisonnement
ModalitéTexte
Type de questionsgénération de code Python
Métrique d'évaluationpass@1
AccèsPublic
LicenceApache-2.0
Languesanglais; code Python
Taille du jeu164 problèmes de programmation, avec une suite de tests augmentée d’environ 80× par rapport à HumanEval
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1Phi 4 ReasoningMicrosoft92,9 %30 avril 2025Auto-déclaré
2Phi 4 Reasoning PlusMicrosoft92,3 %30 avril 2025Auto-déclaré
3Granite 3.3 8B BaseIBM86,1 %16 avril 2025Auto-déclaré
4Granite 3.3 8B InstructIBM86,1 %16 avril 2025Auto-déclaré
5Phi 4Microsoft82,8 %12 décembre 2024Auto-déclaré
6IBM Granite 4.0 Tiny PreviewIBM78,3 %2 mai 2025Auto-déclaré
7MiMo-V2.5-ProXiaomi75,6 %27 avril 2026Auto-déclaré
8Qwen2.5 32B InstructQwen52,4 %19 septembre 2024Auto-déclaré
9Qwen2.5 14B InstructQwen51,2 %19 septembre 2024Auto-déclaré
10ERNIE 4.5Baidu25,0 %25 juin 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 80,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HumanEval+ indique qu’un modèle produit, dès sa première tentative, du code Python qui passe une batterie de tests fonctionnels étendue. Cette exigence renforce la valeur du signal par rapport à HumanEval, car des erreurs auparavant invisibles peuvent être détectées. Le classement disponible dans la base montre un niveau global déjà élevé, avec une médiane à 81 % sur 10 modèles évalués, et un meilleur score attribué à Phi 4 Reasoning (Microsoft) à 93 %. Cette concentration de résultats suggère aussi un risque de saturation progressive, où les écarts deviennent moins discriminants entre modèles performants.

L’interprétation doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures indépendantes et strictement reproductibles. HumanEval+ reste centré sur des problèmes courts de programmation Python, en anglais, et ne couvre pas l’ensemble des tâches de développement logiciel. Comme tout benchmark connu et public, il peut aussi être exposé à des risques de contamination des données d’entraînement.


Sources des scores : llm-stats.