Connaissances & sciences

HealthBench

HealthBench est un benchmark open-source créé par OpenAI pour évaluer les modèles de langage dans des situations de santé. Il s’appuie sur des conversations médicales multi-tours et sur des réponses jugées selon des rubriques, afin d’apprécier la qualité, la sécurité et l’utilité des…

Le test couvre des dimensions importantes pour un usage médical assisté par IA, comme le raisonnement clinique, la communication avec le patient et le respect de comportements sûrs. Il sert surtout à comparer la capacité des modèles à répondre de manière pertinente et prudente dans des contextes de santé.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	santé
Modalité	Texte
Type de questions	conversations médicales multi-tours avec réponses générées évaluées par rubriques
Métrique d'évaluation	score moyen basé sur des critères de rubrique, normalisé entre 0 et 1
Accès	Public
Langues	anglais
Taille du jeu	5 000 conversations multi-tours et 48 562 critères de rubrique uniques
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2 0905	Moonshot AI	58,0 %	5 septembre 2025	Auto-déclaré
2	GPT OSS 120B	OpenAI	57,6 %	5 août 2025	Auto-déclaré
3	GPT-5.3 Chat	OpenAI	54,1 %	4 mars 2026	Auto-déclaré
4	GPT-5.5 Instant	OpenAI	51,4 %	5 mai 2026	Auto-déclaré
5	GPT OSS 20B	OpenAI	42,5 %	5 août 2025	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 54,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur HealthBench indique qu’un modèle satisfait davantage les critères de rubrique définis pour des conversations de santé, avec une meilleure adéquation attendue aux exigences de qualité, de sécurité et d’utilité. La conception du benchmark apporte un cadre d’évaluation structuré, avec des réponses examinées par des médecins et un grand nombre de critères distincts. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le jeu étant public, un risque de contamination ne peut pas être exclu pour des modèles entraînés après sa publication. La portée reste aussi limitée à l’anglais et à des conversations simulées, sans validation directe d’un usage clinique réel. La médiane à 54 % et le meilleur score à 58 % ne suggèrent pas une saturation nette dans l’échantillon suivi. Le classement met Kimi K2 0905 en tête, mais l’indépendance comparative est limitée, car 4 des 5 modèles classés sont édités par OpenAI, également créateur du benchmark.

Sources des scores : llm-stats.

HealthBench

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench