SimpleVQA
SimpleVQA est un benchmark de visual question answering consacré à des requêtes simples, formulées comme de courtes questions visuelles appelant une réponse factuelle brève. Créé par Xianfu Cheng et al., il vise à tester la capacité des modèles multimodaux à relier une image à des…
SimpleVQA est un benchmark de visual question answering consacré à des requêtes simples, formulées comme de courtes questions visuelles appelant une réponse factuelle brève. Créé par Xianfu Cheng et al., il vise à tester la capacité des modèles multimodaux à relier une image à des connaissances factuelles sans produire d’hallucinations.
Dans une modelothèque, SimpleVQA sert de repère ciblé pour comparer des systèmes sur la factualité multimodale. Il ne mesure pas l’ensemble du raisonnement visuel, mais éclaire un cas d’usage précis : répondre correctement à des questions ouvertes courtes ancrées dans le contenu visuel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Xianfu Cheng et al. (auteurs du papier SimpleVQA) |
| Capacités mesurées | Factualite multimodale : repondre a de courtes questions visuelles ancrees dans des connaissances factuelles, en limitant les hallucinations |
| Modalité | Multimodal |
| Type de questions | Questions visuelles courtes a reponse factuelle (reponse ouverte courte) |
| Métrique d'évaluation | LLM-as-judge (exactitude) |
| Accès | Public |
| Taille du jeu | ~2 025 paires image-question-reponse, 9 categories de taches |
| Année de publication | 2025 |
| Ressources | Article scientifique |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7-Plus | Qwen | 81,7 % | 31 mai 2026 | Auto-déclaré |
| 2 | GLM-5V-Turbo | Zhipu AI | 78,2 % | 2 avril 2026 | Auto-déclaré |
| 3 | Seed 2.1 Pro | bytedance | 74,5 % | 24 juin 2026 | Auto-déclaré |
| 4 | Muse Spark | Meta | 71,3 % | 8 avril 2026 | Auto-déclaré |
| 5 | Kimi K2.5 | Moonshot AI | 71,2 % | 27 janvier 2026 | Auto-déclaré |
| 6 | Seed 2.1 Turbo | bytedance | 71,1 % | 24 juin 2026 | Auto-déclaré |
| 7 | Qwen3.6 Plus | Qwen | 67,3 % | 31 mars 2026 | Auto-déclaré |
| 8 | Qwen3.5-122B-A10B | Qwen | 61,7 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3 VL 235B A22B Thinking | Qwen | 61,3 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3.6-35B-A3B | Qwen | 58,9 % | 16 avril 2026 | Auto-déclaré |
| 11 | Qwen3.5-35B-A3B | Qwen | 58,3 % | 24 février 2026 | Auto-déclaré |
| 12 | Qwen3.6-27B | Qwen | 56,1 % | 21 avril 2026 | Auto-déclaré |
| 13 | Qwen3.5-27B | Qwen | 56,0 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 67,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SimpleVQA indique qu’un modèle répond avec exactitude à des questions visuelles factuelles courtes, selon une évaluation par LLM-as-judge. Cette métrique permet de traiter des réponses ouvertes, mais elle dépend de la qualité du juge automatique et ne remplace pas nécessairement une validation humaine exhaustive. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement et des écarts entre modèles.
Le meilleur score recensé, obtenu par Qwen3.7-Plus, se situe nettement au-dessus de la médiane de l’ensemble, ce qui suggère une différenciation encore visible entre modèles plutôt qu’une saturation complète. Les limites restent importantes : le benchmark est public, donc exposé à un risque de contamination, et sa portée demeure volontairement étroite, avec des questions simples, des réponses courtes et un périmètre centré sur la factualité multimodale. Le classement révèle surtout la robustesse relative des modèles sur ce format précis, pas une supériorité générale en vision-langage.
Sources des scores : llm-stats.