Vision & multimodal

MedXpertQA

MedXpertQA est un benchmark médical conçu par le laboratoire C3I de l’Université Tsinghua pour évaluer des modèles d’IA sur des tâches de connaissances médicales et de raisonnement clinique de niveau expert.

Le jeu combine des questions textuelles et multimodales, avec images médicales, dossiers patients et résultats d’examens. Il sert à tester la capacité des modèles à mobiliser des informations cliniques complexes dans un format proche d’examens médicaux spécialisés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Université Tsinghua (laboratoire C3I)
Capacités mesurées	Connaissances médicales et raisonnement clinique de niveau expert, en texte et en multimodal (images + dossiers patients, résultats d'examens)
Modalité	Multimodal
Type de questions	Choix multiple (QCM d'examens médicaux experts) ; sous-ensembles Text et MM (multimodal)
Métrique d'évaluation	Accuracy par sous-ensemble
Accès	Public
Licence	MIT (dépôt code) ; article CC BY 4.0
Langues	Anglais
Taille du jeu	4 460 questions (17 spécialités, 11 systèmes corporels)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 12)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Muse Spark	Meta	78,4 %	8 avril 2026	Auto-déclaré
2	Qwen3.5-122B-A10B	Qwen	67,3 %	24 février 2026	Auto-déclaré
3	Qwen3.5-27B	Qwen	62,4 %	24 février 2026	Auto-déclaré
4	Qwen3.5-35B-A3B	Qwen	61,4 %	24 février 2026	Auto-déclaré
5	Gemma 4 31B	Google	61,3 %	2 avril 2026	Auto-déclaré
6	Gemma 4 26B-A4B	Google	58,1 %	2 avril 2026	Auto-déclaré
7	DiffusionGemma 26B-A4B	Google	49,0 %	10 juin 2026	Auto-déclaré
8	Gemma 4 12B	Google	48,7 %	23 mai 2026	Auto-déclaré
9	MAI-Thinking-1	Microsoft	43,0 %	2 juin 2026	Auto-déclaré
10	Gemma 4 E4B	Google	28,7 %	2 avril 2026	Auto-déclaré
11	Gemma 4 E2B	Google	23,5 %	2 avril 2026	Auto-déclaré
12	MedGemma 4B IT	Google	18,8 %	20 mai 2025	Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 53,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MedXpertQA indique une bonne capacité à répondre à des QCM médicaux exigeants, en particulier lorsque le modèle doit relier connaissances spécialisées, contexte clinique et éléments visuels. La comparaison entre sous-ensembles Text et MM permet aussi d’observer si la performance repose surtout sur le langage ou s’étend à l’interprétation multimodale. Dans la base, le classement montre un écart notable entre le score médian et le meilleur résultat, avec Muse Spark en tête, ce qui suggère une différenciation encore nette entre modèles. La lecture des scores doit toutefois rester prudente : leur fiabilité est majoritairement auto-déclarée par les éditeurs, donc moins robuste qu’une évaluation entièrement reproduite de manière indépendante. Les limites habituelles s’appliquent également, notamment le risque de contamination des données d’entraînement, une portée centrée sur des QCM en anglais, et une possible saturation si les modèles progressent rapidement sur ce type de format.

Sources des scores : llm-stats.

MedXpertQA

Carte d'identité

Classement des modèles (top 12)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench