HealthBench Professional
HealthBench Professional est un benchmark créé par OpenAI pour évaluer des modèles d’IA dans des usages cliniques professionnels. Il repose sur des conversations de type chat, inspirées de cas cliniques réels, et vise des situations comme la consultation, la rédaction de documentation ou…
HealthBench Professional est un benchmark créé par OpenAI pour évaluer des modèles d’IA dans des usages cliniques professionnels. Il repose sur des conversations de type chat, inspirées de cas cliniques réels, et vise des situations comme la consultation, la rédaction de documentation ou la recherche médicale.
Son intérêt tient à l’évaluation conjointe de la capacité et de la sûreté des modèles dans un contexte médical spécialisé. Les réponses libres sont notées à partir de rubriques conçues et arbitrées par des médecins, ce qui en fait un repère centré sur la qualité clinique plutôt que sur la simple restitution de connaissances.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Évaluation de la capacité et de la sûreté des modèles pour des usages cliniques professionnels (consultation, rédaction/documentation, recherche médicale) à partir de conversations réelles de cliniciens |
| Modalité | Texte |
| Type de questions | chat/réponse libre sur des cas cliniques réels |
| Métrique d'évaluation | notation selon des rubriques rédigées et arbitrées par des médecins |
| Accès | Public |
| Langues | anglais |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 66,0 % | 9 juin 2026 | Auto-déclaré |
| 2 | Claude Opus 4.8 | Anthropic | 55,8 % | 28 mai 2026 | Auto-déclaré |
| 3 | GPT-5.5 Instant | OpenAI | 38,4 % | 5 mai 2026 | Auto-déclaré |
| 4 | MAI-Thinking-1 | Microsoft | 35,0 % | 2 juin 2026 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HealthBench Professional indique qu’un modèle produit plus souvent des réponses jugées adaptées par des critères médicaux, avec une attention portée à la sûreté dans des échanges cliniques réalistes. La métrique repose sur des rubriques rédigées et arbitrées par des médecins, ce qui renforce la pertinence qualitative de l’évaluation. En revanche, la fiabilité du classement doit être lue avec prudence, les scores étant majoritairement auto-déclarés par les éditeurs plutôt que systématiquement mesurés de façon indépendante.
- La portée reste limitée à l’anglais et à des cas de chat clinique, sans couvrir l’ensemble des pratiques médicales ni des systèmes de santé.
- L’accès public peut rendre la contamination des données d’évaluation à surveiller, comme pour d’autres benchmarks ouverts.
- La saturation n’est pas encore manifeste dans la base observée, le meilleur score restant à 66% et le score médian à 47%.
Le classement, fondé sur quatre modèles dans la base, suggère un avantage net de Claude Fable 5 (Anthropic), sans pour autant établir à lui seul une aptitude clinique générale.
Sources des scores : llm-stats.