HealthBench
HealthBench est un benchmark open-source créé par OpenAI pour évaluer les modèles de langage dans des situations de santé. Il s’appuie sur des conversations médicales multi-tours et sur des réponses jugées selon des rubriques, afin d’apprécier la qualité, la sécurité et l’utilité des…
HealthBench est un benchmark open-source créé par OpenAI pour évaluer les modèles de langage dans des situations de santé. Il s’appuie sur des conversations médicales multi-tours et sur des réponses jugées selon des rubriques, afin d’apprécier la qualité, la sécurité et l’utilité des sorties produites.
Le test couvre des dimensions importantes pour un usage médical assisté par IA, comme le raisonnement clinique, la communication avec le patient et le respect de comportements sûrs. Il sert surtout à comparer la capacité des modèles à répondre de manière pertinente et prudente dans des contextes de santé.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | santé |
| Modalité | Texte |
| Type de questions | conversations médicales multi-tours avec réponses générées évaluées par rubriques |
| Métrique d'évaluation | score moyen basé sur des critères de rubrique, normalisé entre 0 et 1 |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 5 000 conversations multi-tours et 48 562 critères de rubrique uniques |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2 0905 | Moonshot AI | 58,0 % | 5 septembre 2025 | Auto-déclaré |
| 2 | GPT OSS 120B | OpenAI | 57,6 % | 5 août 2025 | Auto-déclaré |
| 3 | GPT-5.3 Chat | OpenAI | 54,1 % | 4 mars 2026 | Auto-déclaré |
| 4 | GPT-5.5 Instant | OpenAI | 51,4 % | 5 mai 2026 | Auto-déclaré |
| 5 | GPT OSS 20B | OpenAI | 42,5 % | 5 août 2025 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 54,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur HealthBench indique qu’un modèle satisfait davantage les critères de rubrique définis pour des conversations de santé, avec une meilleure adéquation attendue aux exigences de qualité, de sécurité et d’utilité. La conception du benchmark apporte un cadre d’évaluation structuré, avec des réponses examinées par des médecins et un grand nombre de critères distincts. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le jeu étant public, un risque de contamination ne peut pas être exclu pour des modèles entraînés après sa publication. La portée reste aussi limitée à l’anglais et à des conversations simulées, sans validation directe d’un usage clinique réel. La médiane à 54 % et le meilleur score à 58 % ne suggèrent pas une saturation nette dans l’échantillon suivi. Le classement met Kimi K2 0905 en tête, mais l’indépendance comparative est limitée, car 4 des 5 modèles classés sont édités par OpenAI, également créateur du benchmark.
Sources des scores : llm-stats.