Vision & multimodal

SimpleVQA

SimpleVQA est un benchmark de visual question answering consacré à des requêtes simples, formulées comme de courtes questions visuelles appelant une réponse factuelle brève. Créé par Xianfu Cheng et al., il vise à tester la capacité des modèles multimodaux à relier une image à des…

Dans une modelothèque, SimpleVQA sert de repère ciblé pour comparer des systèmes sur la factualité multimodale. Il ne mesure pas l’ensemble du raisonnement visuel, mais éclaire un cas d’usage précis : répondre correctement à des questions ouvertes courtes ancrées dans le contenu visuel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Xianfu Cheng et al. (auteurs du papier SimpleVQA)
Capacités mesurées	Factualite multimodale : repondre a de courtes questions visuelles ancrees dans des connaissances factuelles, en limitant les hallucinations
Modalité	Multimodal
Type de questions	Questions visuelles courtes a reponse factuelle (reponse ouverte courte)
Métrique d'évaluation	LLM-as-judge (exactitude)
Accès	Public
Taille du jeu	~2 025 paires image-question-reponse, 9 categories de taches
Année de publication	2025
Ressources	Article scientifique

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7-Plus	Qwen	81,7 %	31 mai 2026	Auto-déclaré
2	GLM-5V-Turbo	Zhipu AI	78,2 %	2 avril 2026	Auto-déclaré
3	Seed 2.1 Pro	bytedance	74,5 %	24 juin 2026	Auto-déclaré
4	Muse Spark	Meta	71,3 %	8 avril 2026	Auto-déclaré
5	Kimi K2.5	Moonshot AI	71,2 %	27 janvier 2026	Auto-déclaré
6	Seed 2.1 Turbo	bytedance	71,1 %	24 juin 2026	Auto-déclaré
7	Qwen3.6 Plus	Qwen	67,3 %	31 mars 2026	Auto-déclaré
8	Qwen3.5-122B-A10B	Qwen	61,7 %	24 février 2026	Auto-déclaré
9	Qwen3 VL 235B A22B Thinking	Qwen	61,3 %	22 septembre 2025	Auto-déclaré
10	Qwen3.6-35B-A3B	Qwen	58,9 %	16 avril 2026	Auto-déclaré
11	Qwen3.5-35B-A3B	Qwen	58,3 %	24 février 2026	Auto-déclaré
12	Qwen3.6-27B	Qwen	56,1 %	21 avril 2026	Auto-déclaré
13	Qwen3.5-27B	Qwen	56,0 %	24 février 2026	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 67,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SimpleVQA indique qu’un modèle répond avec exactitude à des questions visuelles factuelles courtes, selon une évaluation par LLM-as-judge. Cette métrique permet de traiter des réponses ouvertes, mais elle dépend de la qualité du juge automatique et ne remplace pas nécessairement une validation humaine exhaustive. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement et des écarts entre modèles.

Le meilleur score recensé, obtenu par Qwen3.7-Plus, se situe nettement au-dessus de la médiane de l’ensemble, ce qui suggère une différenciation encore visible entre modèles plutôt qu’une saturation complète. Les limites restent importantes : le benchmark est public, donc exposé à un risque de contamination, et sa portée demeure volontairement étroite, avec des questions simples, des réponses courtes et un périmètre centré sur la factualité multimodale. Le classement révèle surtout la robustesse relative des modèles sur ce format précis, pas une supériorité générale en vision-langage.

Sources des scores : llm-stats.

SimpleVQA

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++