HealthBench Hard

HealthBench Hard est un benchmark d’OpenAI consacré à l’évaluation des grands modèles de langage dans des situations de santé difficiles. Il porte sur des conversations multi-tours, avec des cas cliniquement complexes ou ambigus, afin d’observer la capacité des modèles à produire des…

HealthBench Hard est un benchmark d’OpenAI consacré à l’évaluation des grands modèles de langage dans des situations de santé difficiles. Il porte sur des conversations multi-tours, avec des cas cliniquement complexes ou ambigus, afin d’observer la capacité des modèles à produire des réponses exactes, sûres et adaptées au contexte.

Son évaluation repose sur des rubriques conçues par des médecins, puis notées par un modèle juge. Le benchmark sert ainsi à comparer la performance clinique, la qualité de communication, la recherche d’informations pertinentes et la complétude des réponses dans un cadre plus exigeant que des questions médicales simples.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesPerformance et sécurité en santé sur cas cliniquement complexes et ambigus ; exactitude, communication, recherche de contexte, complétude
ModalitéTexte
Type de questionsconversations santé multi-tours, évaluation par rubriques rédigées par des médecins
Métrique d'évaluationscore agrégé sur rubriques notées par un modèle juge (critères créés par des médecins)
AccèsPublic
Languesanglais (principalement)
Taille du jeu1000 exemples (sous-ensemble difficile de HealthBench)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Muse SparkMeta42,8 %8 avril 2026Auto-déclaré
2GPT OSS 120BOpenAI30,0 %5 août 2025Auto-déclaré
3GPT-5.3 ChatOpenAI25,9 %4 mars 2026Auto-déclaré
4GPT-5.5 InstantOpenAI22,9 %5 mai 2026Auto-déclaré
5GPT OSS 20BOpenAI10,8 %5 août 2025Auto-déclaré
6GPT-5OpenAI1,6 %7 août 2025Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 24,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HealthBench Hard indique une meilleure capacité à gérer des échanges médicaux ambigus, à demander du contexte utile et à formuler des réponses plus complètes selon des critères médicaux explicites. Le niveau général reste toutefois bas dans la base observée, avec une médiane à 24 % et un meilleur résultat à 43 % pour Muse Spark (Meta), ce qui suggère un benchmark encore peu saturé.

La rigueur vient des rubriques rédigées par des médecins et de critères d’évaluation stricts, mais les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité. Le caractère public du jeu peut aussi exposer à un risque de contamination à mesure que le benchmark circule. Sa portée reste centrée sur l’anglais et sur un sous-ensemble difficile de HealthBench, plutôt que sur l’ensemble des usages médicaux. Enfin, l’indépendance du classement est limitée : 5 des 6 modèles classés sont édités par OpenAI, également créateur du benchmark, ce qui affaiblit sa valeur pour comparer OpenAI à d’autres éditeurs.


Sources des scores : llm-stats.