HumanEval

HumanEval est un benchmark créé par OpenAI pour évaluer la génération de code à partir de descriptions en langage naturel. Il mesure la capacité d’un modèle à comprendre une docstring en anglais et à produire une fonction Python correcte, avec un accent sur la justesse fonctionnelle…

HumanEval est un benchmark créé par OpenAI pour évaluer la génération de code à partir de descriptions en langage naturel. Il mesure la capacité d’un modèle à comprendre une docstring en anglais et à produire une fonction Python correcte, avec un accent sur la justesse fonctionnelle plutôt que sur le style du code.

Le test cible des tâches de programmation courtes qui mobilisent la compréhension du langage, le raisonnement algorithmique, la manipulation de chaînes ou de listes et des mathématiques simples. Il sert de repère standard pour comparer les modèles sur la synthèse de programmes exécutables.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréescode, raisonnement
ModalitéTexte
Type de questionsgénération de code à partir de docstrings
Métrique d'évaluationpass@1
AccèsPublic
LicenceMIT
Languesanglais, Python
Taille du jeu164 problèmes de programmation
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1MiniCPM-SALAOpenBMB95,1 %11 février 2026Auto-déclaré
2Kimi K2 0905Moonshot AI94,5 %5 septembre 2025Auto-déclaré
3Claude 3.5 SonnetAnthropic93,7 %22 octobre 2024Auto-déclaré
4GPT-5OpenAI93,4 %7 août 2025Auto-déclaré
5Kimi K2 InstructMoonshot AI93,3 %11 juillet 2025Auto-déclaré
6Qwen2.5-Coder 32B InstructQwen92,7 %19 septembre 2024Auto-déclaré
7o1-miniOpenAI92,4 %12 septembre 2024Auto-déclaré
8Sarvam-30Bsarvamai92,1 %6 mars 2026Auto-déclaré
9Mistral Large 2Mistral AI92,0 %24 juillet 2024Auto-déclaré
10Qwen2.5 VL 32B InstructQwen91,5 %28 février 2025Auto-déclaré
11GPT-4oOpenAI90,2 %27 mars 2025Auto-déclaré
12Granite 3.3 8B BaseIBM89,7 %16 avril 2025Auto-déclaré
13Granite 3.3 8B InstructIBM89,7 %16 avril 2025Auto-déclaré
14Gemini DiffusionGoogle89,6 %20 mai 2025Auto-déclaré
15DeepSeek-V2.5DeepSeek89,0 %8 mai 2024Auto-déclaré
16Llama 3.1 405B InstructMeta89,0 %23 juillet 2024Auto-déclaré
17Nova ProAmazon89,0 %20 novembre 2024Auto-déclaré
18LongCat-Flash-ChatMeituan88,4 %29 août 2025Auto-déclaré
19Mistral Small 3.1 24B InstructMistral AI88,4 %17 mars 2025Auto-déclaré
20Grok-2xAI88,4 %13 août 2024Auto-déclaré

Classement établi sur 65 modèles évalués, dont 57 de grands éditeurs. Score médian de l'ensemble : 85,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HumanEval indique qu’un modèle parvient souvent à transformer une spécification brève en code Python fonctionnel dès sa première réponse, selon la métrique pass@1. Dans la base suivie, les résultats sont déjà très élevés, avec un score médian de 86% sur 66 modèles évalués et un meilleur score de 95% pour MiniCPM-SALA (OpenBMB). Cette concentration en haut du classement suggère une forme de saturation, ce qui réduit la capacité du benchmark à distinguer finement les modèles les plus performants. La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le caractère public du jeu peut aussi exposer l’évaluation à des risques de contamination des données d’entraînement. Enfin, la portée du test reste ciblée : HumanEval évalue surtout des problèmes courts en Python issus de docstrings, et ne couvre pas à lui seul la maintenance logicielle, les grands projets ou le débogage complexe.


Sources des scores : llm-stats.