RefSpatialBench

RefSpatialBench est un benchmark public conçu par BAAI (Beijing Academy of Artificial Intelligence) pour évaluer la compréhension des références spatiales et leur ancrage dans des scènes réelles. Il se concentre sur des tâches où un modèle doit interpréter une instruction spatiale et…

RefSpatialBench est un benchmark public conçu par BAAI (Beijing Academy of Artificial Intelligence) pour évaluer la compréhension des références spatiales et leur ancrage dans des scènes réelles. Il se concentre sur des tâches où un modèle doit interpréter une instruction spatiale et identifier une cible, sous forme de point ou de masque.

Publié en 2025, ce test vise surtout les capacités utiles à la robotique et aux systèmes multimodaux incarnés : relier le langage à l’espace visuel, raisonner en plusieurs étapes et produire une localisation exploitable dans l’image.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBAAI (Beijing Academy of Artificial Intelligence)
Capacités mesuréesCompréhension et raisonnement spatial multi-étapes, ancrage (grounding) référentiel pour la robotique
ModalitéImage
Type de questionsréférence spatiale / pointage (prédiction d'un point ou d'un masque cible à partir d'une instruction)
Métrique d'évaluationtaux de succès / précision (success rate)
AccèsPublic
Languesanglais
Taille du jeu200 images réelles
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6-27BQwen70,0 %21 avril 2026Auto-déclaré
2Qwen3 VL 235B A22B ThinkingQwen69,9 %22 septembre 2025Auto-déclaré
3Qwen3.5-122B-A10BQwen69,3 %24 février 2026Auto-déclaré
4Qwen3.5-27BQwen67,7 %24 février 2026Auto-déclaré
5Qwen3.6-35B-A3BQwen64,3 %16 avril 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen63,5 %24 février 2026Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 68,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RefSpatialBench indique qu’un modèle parvient relativement bien à transformer une instruction spatiale en localisation visuelle précise. Le benchmark valorise donc moins la reconnaissance générale d’objets que la capacité à suivre une référence, à désambiguïser une cible et à raisonner sur les relations spatiales dans une scène. Dans la base considérée, les résultats sont resserrés : le meilleur modèle, Qwen3.6-27B, atteint 70 %, tandis que la médiane s’établit à 68 %. Cet écart limité suggère un classement peu dispersé, où de petites différences peuvent modifier l’ordre des modèles.

  • La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.
  • La portée reste ciblée : le jeu repose sur des images réelles et des instructions en anglais, mais il ne couvre pas nécessairement toute la diversité des environnements robotiques.
  • La taille réduite du jeu peut rendre l’évaluation sensible à la saturation ou à une éventuelle contamination des données.

Sources des scores : llm-stats.