Vision & multimodal

SlakeVQA

SlakeVQA est un benchmark de visual question answering médical publié par Bo Liu et al. en 2021. Il évalue la capacité d’un modèle à relier une image radiologique à une question en langage naturel, dans un contexte bilingue anglais-chinois, avec des réponses courtes.

Le jeu met l’accent sur la compréhension conjointe du visuel et du texte, mais aussi sur le raisonnement mobilisant des connaissances médicales externes. Il sert ainsi à mesurer si un système multimodal dépasse la simple reconnaissance d’indices visuels pour produire une réponse médicalement pertinente.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Bo Liu et al.
Capacités mesurées	santé, image vers texte, multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	questions ouvertes de visual question answering médical, avec réponses courtes bilingues
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais et chinois
Taille du jeu	642 images radiologiques et 14 028 paires question-réponse
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-122B-A10B	Qwen	81,6 %	24 février 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	80,0 %	24 février 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	78,7 %	24 février 2026	Auto-déclaré
4	MedGemma 4B IT	Google	62,3 %	20 mai 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 79,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SlakeVQA indique une bonne capacité à associer des informations issues d’images médicales, comme des scanners, IRM ou radiographies, à des questions cliniques formulées en anglais ou en chinois. Il suggère aussi une aptitude au raisonnement lorsque la réponse dépend de connaissances médicales externes, et pas uniquement de ce qui est directement visible dans l’image.

L’interprétation du classement doit toutefois rester prudente. Les scores recensés dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation indépendante et strictement contrôlée. La taille du jeu reste relativement contenue, ce qui peut accentuer les effets de saturation ou de contamination, en particulier pour des modèles entraînés sur de larges corpus publics. La portée du benchmark demeure spécialisée, centrée sur l’imagerie radiologique et le VQA médical bilingue.

Dans la base, quatre modèles sont évalués. Le meilleur résultat observé, obtenu par Qwen3.5-122B-A10B (Qwen), dépasse modérément le score médian, ce qui suggère un classement resserré plutôt qu’un écart massif entre systèmes.

Sources des scores : llm-stats.

SlakeVQA

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench