SlakeVQA
SlakeVQA est un benchmark de visual question answering médical publié par Bo Liu et al. en 2021. Il évalue la capacité d’un modèle à relier une image radiologique à une question en langage naturel, dans un contexte bilingue anglais-chinois, avec des réponses courtes.
SlakeVQA est un benchmark de visual question answering médical publié par Bo Liu et al. en 2021. Il évalue la capacité d’un modèle à relier une image radiologique à une question en langage naturel, dans un contexte bilingue anglais-chinois, avec des réponses courtes.
Le jeu met l’accent sur la compréhension conjointe du visuel et du texte, mais aussi sur le raisonnement mobilisant des connaissances médicales externes. Il sert ainsi à mesurer si un système multimodal dépasse la simple reconnaissance d’indices visuels pour produire une réponse médicalement pertinente.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Bo Liu et al. |
| Capacités mesurées | santé, image vers texte, multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes de visual question answering médical, avec réponses courtes bilingues |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais et chinois |
| Taille du jeu | 642 images radiologiques et 14 028 paires question-réponse |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-122B-A10B | Qwen | 81,6 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 80,0 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 78,7 % | 24 février 2026 | Auto-déclaré |
| 4 | MedGemma 4B IT | 62,3 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 79,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SlakeVQA indique une bonne capacité à associer des informations issues d’images médicales, comme des scanners, IRM ou radiographies, à des questions cliniques formulées en anglais ou en chinois. Il suggère aussi une aptitude au raisonnement lorsque la réponse dépend de connaissances médicales externes, et pas uniquement de ce qui est directement visible dans l’image.
L’interprétation du classement doit toutefois rester prudente. Les scores recensés dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation indépendante et strictement contrôlée. La taille du jeu reste relativement contenue, ce qui peut accentuer les effets de saturation ou de contamination, en particulier pour des modèles entraînés sur de larges corpus publics. La portée du benchmark demeure spécialisée, centrée sur l’imagerie radiologique et le VQA médical bilingue.
Dans la base, quatre modèles sont évalués. Le meilleur résultat observé, obtenu par Qwen3.5-122B-A10B (Qwen), dépasse modérément le score médian, ce qui suggère un classement resserré plutôt qu’un écart massif entre systèmes.
Sources des scores : llm-stats.