SimpleVQA

SimpleVQA est un benchmark de visual question answering consacré à des requêtes simples, formulées comme de courtes questions visuelles appelant une réponse factuelle brève. Créé par Xianfu Cheng et al., il vise à tester la capacité des modèles multimodaux à relier une image à des…

SimpleVQA est un benchmark de visual question answering consacré à des requêtes simples, formulées comme de courtes questions visuelles appelant une réponse factuelle brève. Créé par Xianfu Cheng et al., il vise à tester la capacité des modèles multimodaux à relier une image à des connaissances factuelles sans produire d’hallucinations.

Dans une modelothèque, SimpleVQA sert de repère ciblé pour comparer des systèmes sur la factualité multimodale. Il ne mesure pas l’ensemble du raisonnement visuel, mais éclaire un cas d’usage précis : répondre correctement à des questions ouvertes courtes ancrées dans le contenu visuel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkXianfu Cheng et al. (auteurs du papier SimpleVQA)
Capacités mesuréesFactualite multimodale : repondre a de courtes questions visuelles ancrees dans des connaissances factuelles, en limitant les hallucinations
ModalitéMultimodal
Type de questionsQuestions visuelles courtes a reponse factuelle (reponse ouverte courte)
Métrique d'évaluationLLM-as-judge (exactitude)
AccèsPublic
Taille du jeu~2 025 paires image-question-reponse, 9 categories de taches
Année de publication2025
RessourcesArticle scientifique

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7-PlusQwen81,7 %31 mai 2026Auto-déclaré
2GLM-5V-TurboZhipu AI78,2 %2 avril 2026Auto-déclaré
3Seed 2.1 Probytedance74,5 %24 juin 2026Auto-déclaré
4Muse SparkMeta71,3 %8 avril 2026Auto-déclaré
5Kimi K2.5Moonshot AI71,2 %27 janvier 2026Auto-déclaré
6Seed 2.1 Turbobytedance71,1 %24 juin 2026Auto-déclaré
7Qwen3.6 PlusQwen67,3 %31 mars 2026Auto-déclaré
8Qwen3.5-122B-A10BQwen61,7 %24 février 2026Auto-déclaré
9Qwen3 VL 235B A22B ThinkingQwen61,3 %22 septembre 2025Auto-déclaré
10Qwen3.6-35B-A3BQwen58,9 %16 avril 2026Auto-déclaré
11Qwen3.5-35B-A3BQwen58,3 %24 février 2026Auto-déclaré
12Qwen3.6-27BQwen56,1 %21 avril 2026Auto-déclaré
13Qwen3.5-27BQwen56,0 %24 février 2026Auto-déclaré

Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 67,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SimpleVQA indique qu’un modèle répond avec exactitude à des questions visuelles factuelles courtes, selon une évaluation par LLM-as-judge. Cette métrique permet de traiter des réponses ouvertes, mais elle dépend de la qualité du juge automatique et ne remplace pas nécessairement une validation humaine exhaustive. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement et des écarts entre modèles.

Le meilleur score recensé, obtenu par Qwen3.7-Plus, se situe nettement au-dessus de la médiane de l’ensemble, ce qui suggère une différenciation encore visible entre modèles plutôt qu’une saturation complète. Les limites restent importantes : le benchmark est public, donc exposé à un risque de contamination, et sa portée demeure volontairement étroite, avec des questions simples, des réponses courtes et un périmètre centré sur la factualité multimodale. Le classement révèle surtout la robustesse relative des modèles sur ce format précis, pas une supériorité générale en vision-langage.


Sources des scores : llm-stats.