V*
V* est un benchmark de raisonnement visuel conçu par Penghao Wu et Saining Xie, associés à UC San Diego et New York University. Il évalue la capacité de modèles multimodaux à interpréter des images haute résolution, riches en détails et parfois visuellement denses.
V* est un benchmark de raisonnement visuel conçu par Penghao Wu et Saining Xie, associés à UC San Diego et New York University. Il évalue la capacité de modèles multimodaux à interpréter des images haute résolution, riches en détails et parfois visuellement denses.
Le test se concentre sur des tâches de QA visuel, avec reconnaissance d’attributs et raisonnement sur les relations spatiales. Son rôle est de mesurer si un modèle peut relier perception fine, recherche visuelle guidée et inférence multimodale dans des scènes complexes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Penghao Wu et Saining Xie (UC San Diego et New York University) |
| Capacités mesurées | Raisonnement visuel sur images haute resolution et visuellement denses, recherche visuelle guidee et perception de details fins. |
| Modalité | Multimodal |
| Type de questions | QA visuel (reconnaissance d'attributs et raisonnement sur relations spatiales) |
| Métrique d'évaluation | Exactitude (accuracy) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 191 images haute resolution (115 reconnaissance d'attributs + 76 raisonnement spatial) |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.6 | Moonshot AI | 96,9 % | 20 avril 2026 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 96,9 % | 31 mars 2026 | Auto-déclaré |
| 3 | Qwen3.6-27B | Qwen | 94,7 % | 21 avril 2026 | Auto-déclaré |
| 4 | Qwen3.5-27B | Qwen | 93,7 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 93,2 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 92,7 % | 24 février 2026 | Auto-déclaré |
| 7 | GLM-5V-Turbo | Zhipu AI | 89,0 % | 2 avril 2026 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 93,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur V* indique une forte aptitude à localiser des éléments pertinents dans une image, à reconnaître des attributs précis et à raisonner sur des relations spatiales. Le classement de la base montre un niveau global très élevé, avec une médiane à 94 % et un meilleur résultat à 97 % pour Kimi K2.6 (Moonshot AI), ce qui suggère une possible saturation du benchmark parmi les modèles les plus performants.
La lecture des résultats doit rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante et reproductible. Le caractère public du jeu peut aussi accroître le risque de contamination, notamment si des images ou des questions ont été exposées pendant l’entraînement ou l’évaluation interne. Enfin, la portée reste ciblée : V* mesure surtout le raisonnement visuel en anglais sur un ensemble restreint d’images haute résolution, et ne suffit donc pas à résumer les capacités multimodales générales d’un modèle.
Sources des scores : llm-stats.