HealthBench

HealthBench est un benchmark open-source créé par OpenAI pour évaluer les modèles de langage dans des situations de santé. Il s’appuie sur des conversations médicales multi-tours et sur des réponses jugées selon des rubriques, afin d’apprécier la qualité, la sécurité et l’utilité des…

HealthBench est un benchmark open-source créé par OpenAI pour évaluer les modèles de langage dans des situations de santé. Il s’appuie sur des conversations médicales multi-tours et sur des réponses jugées selon des rubriques, afin d’apprécier la qualité, la sécurité et l’utilité des sorties produites.

Le test couvre des dimensions importantes pour un usage médical assisté par IA, comme le raisonnement clinique, la communication avec le patient et le respect de comportements sûrs. Il sert surtout à comparer la capacité des modèles à répondre de manière pertinente et prudente dans des contextes de santé.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréessanté
ModalitéTexte
Type de questionsconversations médicales multi-tours avec réponses générées évaluées par rubriques
Métrique d'évaluationscore moyen basé sur des critères de rubrique, normalisé entre 0 et 1
AccèsPublic
Languesanglais
Taille du jeu5 000 conversations multi-tours et 48 562 critères de rubrique uniques
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2 0905Moonshot AI58,0 %5 septembre 2025Auto-déclaré
2GPT OSS 120BOpenAI57,6 %5 août 2025Auto-déclaré
3GPT-5.3 ChatOpenAI54,1 %4 mars 2026Auto-déclaré
4GPT-5.5 InstantOpenAI51,4 %5 mai 2026Auto-déclaré
5GPT OSS 20BOpenAI42,5 %5 août 2025Auto-déclaré

Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 54,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HealthBench indique qu’un modèle satisfait davantage les critères de rubrique définis pour des conversations de santé, avec une meilleure adéquation attendue aux exigences de qualité, de sécurité et d’utilité. La conception du benchmark apporte un cadre d’évaluation structuré, avec des réponses examinées par des médecins et un grand nombre de critères distincts. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le jeu étant public, un risque de contamination ne peut pas être exclu pour des modèles entraînés après sa publication. La portée reste aussi limitée à l’anglais et à des conversations simulées, sans validation directe d’un usage clinique réel. La médiane à 54 % et le meilleur score à 58 % ne suggèrent pas une saturation nette dans l’échantillon suivi. Le classement met Kimi K2 0905 en tête, mais l’indépendance comparative est limitée, car 4 des 5 modèles classés sont édités par OpenAI, également créateur du benchmark.


Sources des scores : llm-stats.