V*

V* est un benchmark de raisonnement visuel conçu par Penghao Wu et Saining Xie, associés à UC San Diego et New York University. Il évalue la capacité de modèles multimodaux à interpréter des images haute résolution, riches en détails et parfois visuellement denses.

V* est un benchmark de raisonnement visuel conçu par Penghao Wu et Saining Xie, associés à UC San Diego et New York University. Il évalue la capacité de modèles multimodaux à interpréter des images haute résolution, riches en détails et parfois visuellement denses.

Le test se concentre sur des tâches de QA visuel, avec reconnaissance d’attributs et raisonnement sur les relations spatiales. Son rôle est de mesurer si un modèle peut relier perception fine, recherche visuelle guidée et inférence multimodale dans des scènes complexes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkPenghao Wu et Saining Xie (UC San Diego et New York University)
Capacités mesuréesRaisonnement visuel sur images haute resolution et visuellement denses, recherche visuelle guidee et perception de details fins.
ModalitéMultimodal
Type de questionsQA visuel (reconnaissance d'attributs et raisonnement sur relations spatiales)
Métrique d'évaluationExactitude (accuracy)
AccèsPublic
LanguesAnglais
Taille du jeu191 images haute resolution (115 reconnaissance d'attributs + 76 raisonnement spatial)
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Kimi K2.6Moonshot AI96,9 %20 avril 2026Auto-déclaré
2Qwen3.6 PlusQwen96,9 %31 mars 2026Auto-déclaré
3Qwen3.6-27BQwen94,7 %21 avril 2026Auto-déclaré
4Qwen3.5-27BQwen93,7 %24 février 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen93,2 %24 février 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen92,7 %24 février 2026Auto-déclaré
7GLM-5V-TurboZhipu AI89,0 %2 avril 2026Auto-déclaré

Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 93,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur V* indique une forte aptitude à localiser des éléments pertinents dans une image, à reconnaître des attributs précis et à raisonner sur des relations spatiales. Le classement de la base montre un niveau global très élevé, avec une médiane à 94 % et un meilleur résultat à 97 % pour Kimi K2.6 (Moonshot AI), ce qui suggère une possible saturation du benchmark parmi les modèles les plus performants.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante et reproductible. Le caractère public du jeu peut aussi accroître le risque de contamination, notamment si des images ou des questions ont été exposées pendant l’entraînement ou l’évaluation interne. Enfin, la portée reste ciblée : V* mesure surtout le raisonnement visuel en anglais sur un ensemble restreint d’images haute résolution, et ne suffit donc pas à résumer les capacités multimodales générales d’un modèle.


Sources des scores : llm-stats.