HealthBench Hard
HealthBench Hard est un benchmark d’OpenAI consacré à l’évaluation des grands modèles de langage dans des situations de santé difficiles. Il porte sur des conversations multi-tours, avec des cas cliniquement complexes ou ambigus, afin d’observer la capacité des modèles à produire des…
HealthBench Hard est un benchmark d’OpenAI consacré à l’évaluation des grands modèles de langage dans des situations de santé difficiles. Il porte sur des conversations multi-tours, avec des cas cliniquement complexes ou ambigus, afin d’observer la capacité des modèles à produire des réponses exactes, sûres et adaptées au contexte.
Son évaluation repose sur des rubriques conçues par des médecins, puis notées par un modèle juge. Le benchmark sert ainsi à comparer la performance clinique, la qualité de communication, la recherche d’informations pertinentes et la complétude des réponses dans un cadre plus exigeant que des questions médicales simples.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Performance et sécurité en santé sur cas cliniquement complexes et ambigus ; exactitude, communication, recherche de contexte, complétude |
| Modalité | Texte |
| Type de questions | conversations santé multi-tours, évaluation par rubriques rédigées par des médecins |
| Métrique d'évaluation | score agrégé sur rubriques notées par un modèle juge (critères créés par des médecins) |
| Accès | Public |
| Langues | anglais (principalement) |
| Taille du jeu | 1000 exemples (sous-ensemble difficile de HealthBench) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Muse Spark | Meta | 42,8 % | 8 avril 2026 | Auto-déclaré |
| 2 | GPT OSS 120B | OpenAI | 30,0 % | 5 août 2025 | Auto-déclaré |
| 3 | GPT-5.3 Chat | OpenAI | 25,9 % | 4 mars 2026 | Auto-déclaré |
| 4 | GPT-5.5 Instant | OpenAI | 22,9 % | 5 mai 2026 | Auto-déclaré |
| 5 | GPT OSS 20B | OpenAI | 10,8 % | 5 août 2025 | Auto-déclaré |
| 6 | GPT-5 | OpenAI | 1,6 % | 7 août 2025 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 24,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HealthBench Hard indique une meilleure capacité à gérer des échanges médicaux ambigus, à demander du contexte utile et à formuler des réponses plus complètes selon des critères médicaux explicites. Le niveau général reste toutefois bas dans la base observée, avec une médiane à 24 % et un meilleur résultat à 43 % pour Muse Spark (Meta), ce qui suggère un benchmark encore peu saturé.
La rigueur vient des rubriques rédigées par des médecins et de critères d’évaluation stricts, mais les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité. Le caractère public du jeu peut aussi exposer à un risque de contamination à mesure que le benchmark circule. Sa portée reste centrée sur l’anglais et sur un sous-ensemble difficile de HealthBench, plutôt que sur l’ensemble des usages médicaux. Enfin, l’indépendance du classement est limitée : 5 des 6 modèles classés sont édités par OpenAI, également créateur du benchmark, ce qui affaiblit sa valeur pour comparer OpenAI à d’autres éditeurs.
Sources des scores : llm-stats.