Vision & multimodal

V*

V* est un benchmark de raisonnement visuel conçu par Penghao Wu et Saining Xie, associés à UC San Diego et New York University. Il évalue la capacité de modèles multimodaux à interpréter des images haute résolution, riches en détails et parfois visuellement denses.

Le test se concentre sur des tâches de QA visuel, avec reconnaissance d’attributs et raisonnement sur les relations spatiales. Son rôle est de mesurer si un modèle peut relier perception fine, recherche visuelle guidée et inférence multimodale dans des scènes complexes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Penghao Wu et Saining Xie (UC San Diego et New York University)
Capacités mesurées	Raisonnement visuel sur images haute resolution et visuellement denses, recherche visuelle guidee et perception de details fins.
Modalité	Multimodal
Type de questions	QA visuel (reconnaissance d'attributs et raisonnement sur relations spatiales)
Métrique d'évaluation	Exactitude (accuracy)
Accès	Public
Langues	Anglais
Taille du jeu	191 images haute resolution (115 reconnaissance d'attributs + 76 raisonnement spatial)
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Kimi K2.6	Moonshot AI	96,9 %	20 avril 2026	Auto-déclaré
2	Qwen3.6 Plus	Qwen	96,9 %	31 mars 2026	Auto-déclaré
3	Qwen3.6-27B	Qwen	94,7 %	21 avril 2026	Auto-déclaré
4	Qwen3.5-27B	Qwen	93,7 %	24 février 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	93,2 %	24 février 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	92,7 %	24 février 2026	Auto-déclaré
7	GLM-5V-Turbo	Zhipu AI	89,0 %	2 avril 2026	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 93,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur V* indique une forte aptitude à localiser des éléments pertinents dans une image, à reconnaître des attributs précis et à raisonner sur des relations spatiales. Le classement de la base montre un niveau global très élevé, avec une médiane à 94 % et un meilleur résultat à 97 % pour Kimi K2.6 (Moonshot AI), ce qui suggère une possible saturation du benchmark parmi les modèles les plus performants.

La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante et reproductible. Le caractère public du jeu peut aussi accroître le risque de contamination, notamment si des images ou des questions ont été exposées pendant l’entraînement ou l’évaluation interne. Enfin, la portée reste ciblée : V* mesure surtout le raisonnement visuel en anglais sur un ensemble restreint d’images haute résolution, et ne suffit donc pas à résumer les capacités multimodales générales d’un modèle.

Sources des scores : llm-stats.

V*

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23