Code & programmation

HumanEval

HumanEval est un benchmark créé par OpenAI pour évaluer la génération de code à partir de descriptions en langage naturel. Il mesure la capacité d’un modèle à comprendre une docstring en anglais et à produire une fonction Python correcte, avec un accent sur la justesse fonctionnelle…

Le test cible des tâches de programmation courtes qui mobilisent la compréhension du langage, le raisonnement algorithmique, la manipulation de chaînes ou de listes et des mathématiques simples. Il sert de repère standard pour comparer les modèles sur la synthèse de programmes exécutables.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	code, raisonnement
Modalité	Texte
Type de questions	génération de code à partir de docstrings
Métrique d'évaluation	pass@1
Accès	Public
Licence	MIT
Langues	anglais, Python
Taille du jeu	164 problèmes de programmation
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiniCPM-SALA	OpenBMB	95,1 %	11 février 2026	Auto-déclaré
2	Kimi K2 0905	Moonshot AI	94,5 %	5 septembre 2025	Auto-déclaré
3	Claude 3.5 Sonnet	Anthropic	93,7 %	22 octobre 2024	Auto-déclaré
4	GPT-5	OpenAI	93,4 %	7 août 2025	Auto-déclaré
5	Kimi K2 Instruct	Moonshot AI	93,3 %	11 juillet 2025	Auto-déclaré
6	Qwen2.5-Coder 32B Instruct	Qwen	92,7 %	19 septembre 2024	Auto-déclaré
7	o1-mini	OpenAI	92,4 %	12 septembre 2024	Auto-déclaré
8	Sarvam-30B	sarvamai	92,1 %	6 mars 2026	Auto-déclaré
9	Mistral Large 2	Mistral AI	92,0 %	24 juillet 2024	Auto-déclaré
10	Qwen2.5 VL 32B Instruct	Qwen	91,5 %	28 février 2025	Auto-déclaré
11	GPT-4o	OpenAI	90,2 %	27 mars 2025	Auto-déclaré
12	Granite 3.3 8B Base	IBM	89,7 %	16 avril 2025	Auto-déclaré
13	Granite 3.3 8B Instruct	IBM	89,7 %	16 avril 2025	Auto-déclaré
14	Gemini Diffusion	Google	89,6 %	20 mai 2025	Auto-déclaré
15	DeepSeek-V2.5	DeepSeek	89,0 %	8 mai 2024	Auto-déclaré
16	Llama 3.1 405B Instruct	Meta	89,0 %	23 juillet 2024	Auto-déclaré
17	Nova Pro	Amazon	89,0 %	20 novembre 2024	Auto-déclaré
18	LongCat-Flash-Chat	Meituan	88,4 %	29 août 2025	Auto-déclaré
19	Mistral Small 3.1 24B Instruct	Mistral AI	88,4 %	17 mars 2025	Auto-déclaré
20	Grok-2	xAI	88,4 %	13 août 2024	Auto-déclaré

Classement établi sur 65 modèles évalués, dont 57 de grands éditeurs. Score médian de l'ensemble : 85,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HumanEval indique qu’un modèle parvient souvent à transformer une spécification brève en code Python fonctionnel dès sa première réponse, selon la métrique pass@1. Dans la base suivie, les résultats sont déjà très élevés, avec un score médian de 86% sur 66 modèles évalués et un meilleur score de 95% pour MiniCPM-SALA (OpenBMB). Cette concentration en haut du classement suggère une forme de saturation, ce qui réduit la capacité du benchmark à distinguer finement les modèles les plus performants. La prudence reste nécessaire, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière homogène par un tiers. Le caractère public du jeu peut aussi exposer l’évaluation à des risques de contamination des données d’entraînement. Enfin, la portée du test reste ciblée : HumanEval évalue surtout des problèmes courts en Python issus de docstrings, et ne couvre pas à lui seul la maintenance logicielle, les grands projets ou le débogage complexe.

Sources des scores : llm-stats.

HumanEval

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++