Connaissances & sciences

HealthBench Professional

HealthBench Professional est un benchmark créé par OpenAI pour évaluer des modèles d’IA dans des usages cliniques professionnels. Il repose sur des conversations de type chat, inspirées de cas cliniques réels, et vise des situations comme la consultation, la rédaction de documentation ou…

Son intérêt tient à l’évaluation conjointe de la capacité et de la sûreté des modèles dans un contexte médical spécialisé. Les réponses libres sont notées à partir de rubriques conçues et arbitrées par des médecins, ce qui en fait un repère centré sur la qualité clinique plutôt que sur la simple restitution de connaissances.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Évaluation de la capacité et de la sûreté des modèles pour des usages cliniques professionnels (consultation, rédaction/documentation, recherche médicale) à partir de conversations réelles de cliniciens
Modalité	Texte
Type de questions	chat/réponse libre sur des cas cliniques réels
Métrique d'évaluation	notation selon des rubriques rédigées et arbitrées par des médecins
Accès	Public
Langues	anglais
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	66,0 %	9 juin 2026	Auto-déclaré
2	Claude Opus 4.8	Anthropic	55,8 %	28 mai 2026	Auto-déclaré
3	GPT-5.5 Instant	OpenAI	38,4 %	5 mai 2026	Auto-déclaré
4	MAI-Thinking-1	Microsoft	35,0 %	2 juin 2026	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HealthBench Professional indique qu’un modèle produit plus souvent des réponses jugées adaptées par des critères médicaux, avec une attention portée à la sûreté dans des échanges cliniques réalistes. La métrique repose sur des rubriques rédigées et arbitrées par des médecins, ce qui renforce la pertinence qualitative de l’évaluation. En revanche, la fiabilité du classement doit être lue avec prudence, les scores étant majoritairement auto-déclarés par les éditeurs plutôt que systématiquement mesurés de façon indépendante.

La portée reste limitée à l’anglais et à des cas de chat clinique, sans couvrir l’ensemble des pratiques médicales ni des systèmes de santé.
L’accès public peut rendre la contamination des données d’évaluation à surveiller, comme pour d’autres benchmarks ouverts.
La saturation n’est pas encore manifeste dans la base observée, le meilleur score restant à 66% et le score médian à 47%.

Le classement, fondé sur quatre modèles dans la base, suggère un avantage net de Claude Fable 5 (Anthropic), sans pour autant établir à lui seul une aptitude clinique générale.

Sources des scores : llm-stats.

HealthBench Professional

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench