Connaissances & sciences

HealthBench Hard

HealthBench Hard est un benchmark d’OpenAI consacré à l’évaluation des grands modèles de langage dans des situations de santé difficiles. Il porte sur des conversations multi-tours, avec des cas cliniquement complexes ou ambigus, afin d’observer la capacité des modèles à produire des…

Son évaluation repose sur des rubriques conçues par des médecins, puis notées par un modèle juge. Le benchmark sert ainsi à comparer la performance clinique, la qualité de communication, la recherche d’informations pertinentes et la complétude des réponses dans un cadre plus exigeant que des questions médicales simples.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Performance et sécurité en santé sur cas cliniquement complexes et ambigus ; exactitude, communication, recherche de contexte, complétude
Modalité	Texte
Type de questions	conversations santé multi-tours, évaluation par rubriques rédigées par des médecins
Métrique d'évaluation	score agrégé sur rubriques notées par un modèle juge (critères créés par des médecins)
Accès	Public
Langues	anglais (principalement)
Taille du jeu	1000 exemples (sous-ensemble difficile de HealthBench)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Muse Spark	Meta	42,8 %	8 avril 2026	Auto-déclaré
2	GPT OSS 120B	OpenAI	30,0 %	5 août 2025	Auto-déclaré
3	GPT-5.3 Chat	OpenAI	25,9 %	4 mars 2026	Auto-déclaré
4	GPT-5.5 Instant	OpenAI	22,9 %	5 mai 2026	Auto-déclaré
5	GPT OSS 20B	OpenAI	10,8 %	5 août 2025	Auto-déclaré
6	GPT-5	OpenAI	1,6 %	7 août 2025	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 24,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HealthBench Hard indique une meilleure capacité à gérer des échanges médicaux ambigus, à demander du contexte utile et à formuler des réponses plus complètes selon des critères médicaux explicites. Le niveau général reste toutefois bas dans la base observée, avec une médiane à 24 % et un meilleur résultat à 43 % pour Muse Spark (Meta), ce qui suggère un benchmark encore peu saturé.

La rigueur vient des rubriques rédigées par des médecins et de critères d’évaluation stricts, mais les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité. Le caractère public du jeu peut aussi exposer à un risque de contamination à mesure que le benchmark circule. Sa portée reste centrée sur l’anglais et sur un sous-ensemble difficile de HealthBench, plutôt que sur l’ensemble des usages médicaux. Enfin, l’indépendance du classement est limitée : 5 des 6 modèles classés sont édités par OpenAI, également créateur du benchmark, ce qui affaiblit sa valeur pour comparer OpenAI à d’autres éditeurs.

Sources des scores : llm-stats.

HealthBench Hard

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench