HumanEval
HumanEval est un benchmark créé par OpenAI pour évaluer la génération de code à partir de descriptions en langage naturel. Il mesure la capacité d’un modèle à comprendre une docstring en anglais et à produire une fonction Python correcte, avec un accent sur la justesse fonctionnelle…
HumanEval est un benchmark créé par OpenAI pour évaluer la génération de code à partir de descriptions en langage naturel. Il mesure la capacité d’un modèle à comprendre une docstring en anglais et à produire une fonction Python correcte, avec un accent sur la justesse fonctionnelle plutôt que sur le style du code.
Le test cible des tâches de programmation courtes qui mobilisent la compréhension du langage, le raisonnement algorithmique, la manipulation de chaînes ou de listes et des mathématiques simples. Il sert de repère standard pour comparer les modèles sur la synthèse de programmes exécutables.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | code, raisonnement |
| Modalité | Texte |
| Type de questions | génération de code à partir de docstrings |
| Métrique d'évaluation | pass@1 |
| Accès | Public |
| Licence | MIT |
| Langues | anglais, Python |
| Taille du jeu | 164 problèmes de programmation |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiniCPM-SALA | OpenBMB | 95,1 % | 11 février 2026 | Auto-déclaré |
| 2 | Kimi K2 0905 | Moonshot AI | 94,5 % | 5 septembre 2025 | Auto-déclaré |
| 3 | Claude 3.5 Sonnet | Anthropic | 93,7 % | 22 octobre 2024 | Auto-déclaré |
| 4 | GPT-5 | OpenAI | 93,4 % | 7 août 2025 | Auto-déclaré |
| 5 | Kimi K2 Instruct | Moonshot AI | 93,3 % | 11 juillet 2025 | Auto-déclaré |
| 6 | Qwen2.5-Coder 32B Instruct | Qwen | 92,7 % | 19 septembre 2024 | Auto-déclaré |
| 7 | o1-mini | OpenAI | 92,4 % | 12 septembre 2024 | Auto-déclaré |
| 8 | Sarvam-30B | sarvamai | 92,1 % | 6 mars 2026 | Auto-déclaré |
| 9 | Mistral Large 2 | Mistral AI | 92,0 % | 24 juillet 2024 | Auto-déclaré |
| 10 | Qwen2.5 VL 32B Instruct | Qwen | 91,5 % | 28 février 2025 | Auto-déclaré |
| 11 | GPT-4o | OpenAI | 90,2 % | 27 mars 2025 | Auto-déclaré |
| 12 | Granite 3.3 8B Base | IBM | 89,7 % | 16 avril 2025 | Auto-déclaré |
| 13 | Granite 3.3 8B Instruct | IBM | 89,7 % | 16 avril 2025 | Auto-déclaré |
| 14 | Gemini Diffusion | 89,6 % | 20 mai 2025 | Auto-déclaré | |
| 15 | DeepSeek-V2.5 | DeepSeek | 89,0 % | 8 mai 2024 | Auto-déclaré |
| 16 | Llama 3.1 405B Instruct | Meta | 89,0 % | 23 juillet 2024 | Auto-déclaré |
| 17 | Nova Pro | Amazon | 89,0 % | 20 novembre 2024 | Auto-déclaré |
| 18 | LongCat-Flash-Chat | Meituan | 88,4 % | 29 août 2025 | Auto-déclaré |
| 19 | Mistral Small 3.1 24B Instruct | Mistral AI | 88,4 % | 17 mars 2025 | Auto-déclaré |
| 20 | Grok-2 | xAI | 88,4 % | 13 août 2024 | Auto-déclaré |
Classement établi sur 65 modèles évalués, dont 57 de grands éditeurs. Score médian de l'ensemble : 85,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HumanEval indique qu’un modèle parvient souvent à transformer une spécification brève en code Python fonctionnel dès sa première réponse, selon la métrique pass@1. Dans la base suivie, les résultats sont déjà très élevés, avec un score médian de 86% sur 66 modèles évalués et un meilleur score de 95% pour MiniCPM-SALA (OpenBMB). Cette concentration en haut du classement suggère une forme de saturation, ce qui réduit la capacité du benchmark à distinguer finement les modèles les plus performants. La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le caractère public du jeu peut aussi exposer l’évaluation à des risques de contamination des données d’entraînement. Enfin, la portée du test reste ciblée : HumanEval évalue surtout des problèmes courts en Python issus de docstrings, et ne couvre pas à lui seul la maintenance logicielle, les grands projets ou le débogage complexe.
Sources des scores : llm-stats.