MedXpertQA
MedXpertQA est un benchmark médical conçu par le laboratoire C3I de l’Université Tsinghua pour évaluer des modèles d’IA sur des tâches de connaissances médicales et de raisonnement clinique de niveau expert.
MedXpertQA est un benchmark médical conçu par le laboratoire C3I de l’Université Tsinghua pour évaluer des modèles d’IA sur des tâches de connaissances médicales et de raisonnement clinique de niveau expert.
Le jeu combine des questions textuelles et multimodales, avec images médicales, dossiers patients et résultats d’examens. Il sert à tester la capacité des modèles à mobiliser des informations cliniques complexes dans un format proche d’examens médicaux spécialisés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Université Tsinghua (laboratoire C3I) |
| Capacités mesurées | Connaissances médicales et raisonnement clinique de niveau expert, en texte et en multimodal (images + dossiers patients, résultats d'examens) |
| Modalité | Multimodal |
| Type de questions | Choix multiple (QCM d'examens médicaux experts) ; sous-ensembles Text et MM (multimodal) |
| Métrique d'évaluation | Accuracy par sous-ensemble |
| Accès | Public |
| Licence | MIT (dépôt code) ; article CC BY 4.0 |
| Langues | Anglais |
| Taille du jeu | 4 460 questions (17 spécialités, 11 systèmes corporels) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Muse Spark | Meta | 78,4 % | 8 avril 2026 | Auto-déclaré |
| 2 | Qwen3.5-122B-A10B | Qwen | 67,3 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-27B | Qwen | 62,4 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-35B-A3B | Qwen | 61,4 % | 24 février 2026 | Auto-déclaré |
| 5 | Gemma 4 31B | 61,3 % | 2 avril 2026 | Auto-déclaré | |
| 6 | Gemma 4 26B-A4B | 58,1 % | 2 avril 2026 | Auto-déclaré | |
| 7 | DiffusionGemma 26B-A4B | 49,0 % | 10 juin 2026 | Auto-déclaré | |
| 8 | Gemma 4 12B | 48,7 % | 23 mai 2026 | Auto-déclaré | |
| 9 | MAI-Thinking-1 | Microsoft | 43,0 % | 2 juin 2026 | Auto-déclaré |
| 10 | Gemma 4 E4B | 28,7 % | 2 avril 2026 | Auto-déclaré | |
| 11 | Gemma 4 E2B | 23,5 % | 2 avril 2026 | Auto-déclaré | |
| 12 | MedGemma 4B IT | 18,8 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 53,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MedXpertQA indique une bonne capacité à répondre à des QCM médicaux exigeants, en particulier lorsque le modèle doit relier connaissances spécialisées, contexte clinique et éléments visuels. La comparaison entre sous-ensembles Text et MM permet aussi d’observer si la performance repose surtout sur le langage ou s’étend à l’interprétation multimodale. Dans la base, le classement montre un écart notable entre le score médian et le meilleur résultat, avec Muse Spark en tête, ce qui suggère une différenciation encore nette entre modèles. La lecture des scores doit toutefois rester prudente : leur fiabilité est majoritairement auto-déclarée par les éditeurs, donc moins robuste qu’une évaluation entièrement reproduite de manière indépendante. Les limites habituelles s’appliquent également, notamment le risque de contamination des données d’entraînement, une portée centrée sur des QCM en anglais, et une possible saturation si les modèles progressent rapidement sur ce type de format.
Sources des scores : llm-stats.