HumanEval+
HumanEval+ est un benchmark de génération de code Python conçu pour évaluer la correction fonctionnelle des programmes produits par des modèles d’IA. Créé par Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et l’équipe EvalPlus, il prolonge HumanEval avec une suite de tests…
HumanEval+ est un benchmark de génération de code Python conçu pour évaluer la correction fonctionnelle des programmes produits par des modèles d’IA. Créé par Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et l’équipe EvalPlus, il prolonge HumanEval avec une suite de tests unitaires nettement plus dense.
Son objectif est de repérer des solutions qui paraissent correctes sur les tests originaux, mais échouent sur des cas supplémentaires. Il sert ainsi de référence plus stricte pour comparer la capacité des modèles à synthétiser du code robuste, au-delà d’une simple conformité superficielle aux exemples fournis.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et al. (EvalPlus) |
| Capacités mesurées | raisonnement |
| Modalité | Texte |
| Type de questions | génération de code Python |
| Métrique d'évaluation | pass@1 |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais; code Python |
| Taille du jeu | 164 problèmes de programmation, avec une suite de tests augmentée d’environ 80× par rapport à HumanEval |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Phi 4 Reasoning | Microsoft | 92,9 % | 30 avril 2025 | Auto-déclaré |
| 2 | Phi 4 Reasoning Plus | Microsoft | 92,3 % | 30 avril 2025 | Auto-déclaré |
| 3 | Granite 3.3 8B Base | IBM | 86,1 % | 16 avril 2025 | Auto-déclaré |
| 4 | Granite 3.3 8B Instruct | IBM | 86,1 % | 16 avril 2025 | Auto-déclaré |
| 5 | Phi 4 | Microsoft | 82,8 % | 12 décembre 2024 | Auto-déclaré |
| 6 | IBM Granite 4.0 Tiny Preview | IBM | 78,3 % | 2 mai 2025 | Auto-déclaré |
| 7 | MiMo-V2.5-Pro | Xiaomi | 75,6 % | 27 avril 2026 | Auto-déclaré |
| 8 | Qwen2.5 32B Instruct | Qwen | 52,4 % | 19 septembre 2024 | Auto-déclaré |
| 9 | Qwen2.5 14B Instruct | Qwen | 51,2 % | 19 septembre 2024 | Auto-déclaré |
| 10 | ERNIE 4.5 | Baidu | 25,0 % | 25 juin 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 80,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HumanEval+ indique qu’un modèle produit, dès sa première tentative, du code Python qui passe une batterie de tests fonctionnels étendue. Cette exigence renforce la valeur du signal par rapport à HumanEval, car des erreurs auparavant invisibles peuvent être détectées. Le classement disponible dans la base montre un niveau global déjà élevé, avec une médiane à 81 % sur 10 modèles évalués, et un meilleur score attribué à Phi 4 Reasoning (Microsoft) à 93 %. Cette concentration de résultats suggère aussi un risque de saturation progressive, où les écarts deviennent moins discriminants entre modèles performants.
L’interprétation doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures indépendantes et strictement reproductibles. HumanEval+ reste centré sur des problèmes courts de programmation Python, en anglais, et ne couvre pas l’ensemble des tâches de développement logiciel. Comme tout benchmark connu et public, il peut aussi être exposé à des risques de contamination des données d’entraînement.
Sources des scores : llm-stats.