HealthBench Professional

HealthBench Professional est un benchmark créé par OpenAI pour évaluer des modèles d’IA dans des usages cliniques professionnels. Il repose sur des conversations de type chat, inspirées de cas cliniques réels, et vise des situations comme la consultation, la rédaction de documentation ou…

HealthBench Professional est un benchmark créé par OpenAI pour évaluer des modèles d’IA dans des usages cliniques professionnels. Il repose sur des conversations de type chat, inspirées de cas cliniques réels, et vise des situations comme la consultation, la rédaction de documentation ou la recherche médicale.

Son intérêt tient à l’évaluation conjointe de la capacité et de la sûreté des modèles dans un contexte médical spécialisé. Les réponses libres sont notées à partir de rubriques conçues et arbitrées par des médecins, ce qui en fait un repère centré sur la qualité clinique plutôt que sur la simple restitution de connaissances.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesÉvaluation de la capacité et de la sûreté des modèles pour des usages cliniques professionnels (consultation, rédaction/documentation, recherche médicale) à partir de conversations réelles de cliniciens
ModalitéTexte
Type de questionschat/réponse libre sur des cas cliniques réels
Métrique d'évaluationnotation selon des rubriques rédigées et arbitrées par des médecins
AccèsPublic
Languesanglais
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic66,0 %9 juin 2026Auto-déclaré
2Claude Opus 4.8Anthropic55,8 %28 mai 2026Auto-déclaré
3GPT-5.5 InstantOpenAI38,4 %5 mai 2026Auto-déclaré
4MAI-Thinking-1Microsoft35,0 %2 juin 2026Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HealthBench Professional indique qu’un modèle produit plus souvent des réponses jugées adaptées par des critères médicaux, avec une attention portée à la sûreté dans des échanges cliniques réalistes. La métrique repose sur des rubriques rédigées et arbitrées par des médecins, ce qui renforce la pertinence qualitative de l’évaluation. En revanche, la fiabilité du classement doit être lue avec prudence, les scores étant majoritairement auto-déclarés par les éditeurs plutôt que systématiquement mesurés de façon indépendante.

  • La portée reste limitée à l’anglais et à des cas de chat clinique, sans couvrir l’ensemble des pratiques médicales ni des systèmes de santé.
  • L’accès public peut rendre la contamination des données d’évaluation à surveiller, comme pour d’autres benchmarks ouverts.
  • La saturation n’est pas encore manifeste dans la base observée, le meilleur score restant à 66% et le score médian à 47%.

Le classement, fondé sur quatre modèles dans la base, suggère un avantage net de Claude Fable 5 (Anthropic), sans pour autant établir à lui seul une aptitude clinique générale.


Sources des scores : llm-stats.