MedXpertQA

MedXpertQA est un benchmark médical conçu par le laboratoire C3I de l’Université Tsinghua pour évaluer des modèles d’IA sur des tâches de connaissances médicales et de raisonnement clinique de niveau expert.

MedXpertQA est un benchmark médical conçu par le laboratoire C3I de l’Université Tsinghua pour évaluer des modèles d’IA sur des tâches de connaissances médicales et de raisonnement clinique de niveau expert.

Le jeu combine des questions textuelles et multimodales, avec images médicales, dossiers patients et résultats d’examens. Il sert à tester la capacité des modèles à mobiliser des informations cliniques complexes dans un format proche d’examens médicaux spécialisés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkUniversité Tsinghua (laboratoire C3I)
Capacités mesuréesConnaissances médicales et raisonnement clinique de niveau expert, en texte et en multimodal (images + dossiers patients, résultats d'examens)
ModalitéMultimodal
Type de questionsChoix multiple (QCM d'examens médicaux experts) ; sous-ensembles Text et MM (multimodal)
Métrique d'évaluationAccuracy par sous-ensemble
AccèsPublic
LicenceMIT (dépôt code) ; article CC BY 4.0
LanguesAnglais
Taille du jeu4 460 questions (17 spécialités, 11 systèmes corporels)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 12)

#ModèleÉditeurScoreSortieFiabilité
1Muse SparkMeta78,4 %8 avril 2026Auto-déclaré
2Qwen3.5-122B-A10BQwen67,3 %24 février 2026Auto-déclaré
3Qwen3.5-27BQwen62,4 %24 février 2026Auto-déclaré
4Qwen3.5-35B-A3BQwen61,4 %24 février 2026Auto-déclaré
5Gemma 4 31BGoogle61,3 %2 avril 2026Auto-déclaré
6Gemma 4 26B-A4BGoogle58,1 %2 avril 2026Auto-déclaré
7DiffusionGemma 26B-A4BGoogle49,0 %10 juin 2026Auto-déclaré
8Gemma 4 12BGoogle48,7 %23 mai 2026Auto-déclaré
9MAI-Thinking-1Microsoft43,0 %2 juin 2026Auto-déclaré
10Gemma 4 E4BGoogle28,7 %2 avril 2026Auto-déclaré
11Gemma 4 E2BGoogle23,5 %2 avril 2026Auto-déclaré
12MedGemma 4B ITGoogle18,8 %20 mai 2025Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 53,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MedXpertQA indique une bonne capacité à répondre à des QCM médicaux exigeants, en particulier lorsque le modèle doit relier connaissances spécialisées, contexte clinique et éléments visuels. La comparaison entre sous-ensembles Text et MM permet aussi d’observer si la performance repose surtout sur le langage ou s’étend à l’interprétation multimodale. Dans la base, le classement montre un écart notable entre le score médian et le meilleur résultat, avec Muse Spark en tête, ce qui suggère une différenciation encore nette entre modèles. La lecture des scores doit toutefois rester prudente : leur fiabilité est majoritairement auto-déclarée par les éditeurs, donc moins robuste qu’une évaluation entièrement reproduite de manière indépendante. Les limites habituelles s’appliquent également, notamment le risque de contamination des données d’entraînement, une portée centrée sur des QCM en anglais, et une possible saturation si les modèles progressent rapidement sur ce type de format.


Sources des scores : llm-stats.