Raisonnement

HumanEval+

HumanEval+ est un benchmark de génération de code Python conçu pour évaluer la correction fonctionnelle des programmes produits par des modèles d’IA. Créé par Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et l’équipe EvalPlus, il prolonge HumanEval avec une suite de tests…

Son objectif est de repérer des solutions qui paraissent correctes sur les tests originaux, mais échouent sur des cas supplémentaires. Il sert ainsi de référence plus stricte pour comparer la capacité des modèles à synthétiser du code robuste, au-delà d’une simple conformité superficielle aux exemples fournis.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, Lingming Zhang et al. (EvalPlus)
Capacités mesurées	raisonnement
Modalité	Texte
Type de questions	génération de code Python
Métrique d'évaluation	pass@1
Accès	Public
Licence	Apache-2.0
Langues	anglais; code Python
Taille du jeu	164 problèmes de programmation, avec une suite de tests augmentée d’environ 80× par rapport à HumanEval
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Phi 4 Reasoning	Microsoft	92,9 %	30 avril 2025	Auto-déclaré
2	Phi 4 Reasoning Plus	Microsoft	92,3 %	30 avril 2025	Auto-déclaré
3	Granite 3.3 8B Base	IBM	86,1 %	16 avril 2025	Auto-déclaré
4	Granite 3.3 8B Instruct	IBM	86,1 %	16 avril 2025	Auto-déclaré
5	Phi 4	Microsoft	82,8 %	12 décembre 2024	Auto-déclaré
6	IBM Granite 4.0 Tiny Preview	IBM	78,3 %	2 mai 2025	Auto-déclaré
7	MiMo-V2.5-Pro	Xiaomi	75,6 %	27 avril 2026	Auto-déclaré
8	Qwen2.5 32B Instruct	Qwen	52,4 %	19 septembre 2024	Auto-déclaré
9	Qwen2.5 14B Instruct	Qwen	51,2 %	19 septembre 2024	Auto-déclaré
10	ERNIE 4.5	Baidu	25,0 %	25 juin 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 80,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HumanEval+ indique qu’un modèle produit, dès sa première tentative, du code Python qui passe une batterie de tests fonctionnels étendue. Cette exigence renforce la valeur du signal par rapport à HumanEval, car des erreurs auparavant invisibles peuvent être détectées. Le classement disponible dans la base montre un niveau global déjà élevé, avec une médiane à 81 % sur 10 modèles évalués, et un meilleur score attribué à Phi 4 Reasoning (Microsoft) à 93 %. Cette concentration de résultats suggère aussi un risque de saturation progressive, où les écarts deviennent moins discriminants entre modèles performants.

L’interprétation doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures indépendantes et strictement reproductibles. HumanEval+ reste centré sur des problèmes courts de programmation Python, en anglais, et ne couvre pas l’ensemble des tâches de développement logiciel. Comme tout benchmark connu et public, il peut aussi être exposé à des risques de contamination des données d’entraînement.

Sources des scores : llm-stats.

HumanEval+

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench