Vision & multimodal

RefSpatialBench

RefSpatialBench est un benchmark public conçu par BAAI (Beijing Academy of Artificial Intelligence) pour évaluer la compréhension des références spatiales et leur ancrage dans des scènes réelles. Il se concentre sur des tâches où un modèle doit interpréter une instruction spatiale et…

Publié en 2025, ce test vise surtout les capacités utiles à la robotique et aux systèmes multimodaux incarnés : relier le langage à l’espace visuel, raisonner en plusieurs étapes et produire une localisation exploitable dans l’image.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	BAAI (Beijing Academy of Artificial Intelligence)
Capacités mesurées	Compréhension et raisonnement spatial multi-étapes, ancrage (grounding) référentiel pour la robotique
Modalité	Image
Type de questions	référence spatiale / pointage (prédiction d'un point ou d'un masque cible à partir d'une instruction)
Métrique d'évaluation	taux de succès / précision (success rate)
Accès	Public
Langues	anglais
Taille du jeu	200 images réelles
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6-27B	Qwen	70,0 %	21 avril 2026	Auto-déclaré
2	Qwen3 VL 235B A22B Thinking	Qwen	69,9 %	22 septembre 2025	Auto-déclaré
3	Qwen3.5-122B-A10B	Qwen	69,3 %	24 février 2026	Auto-déclaré
4	Qwen3.5-27B	Qwen	67,7 %	24 février 2026	Auto-déclaré
5	Qwen3.6-35B-A3B	Qwen	64,3 %	16 avril 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	63,5 %	24 février 2026	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 68,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RefSpatialBench indique qu’un modèle parvient relativement bien à transformer une instruction spatiale en localisation visuelle précise. Le benchmark valorise donc moins la reconnaissance générale d’objets que la capacité à suivre une référence, à désambiguïser une cible et à raisonner sur les relations spatiales dans une scène. Dans la base considérée, les résultats sont resserrés : le meilleur modèle, Qwen3.6-27B, atteint 70 %, tandis que la médiane s’établit à 68 %. Cet écart limité suggère un classement peu dispersé, où de petites différences peuvent modifier l’ordre des modèles.

La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.
La portée reste ciblée : le jeu repose sur des images réelles et des instructions en anglais, mais il ne couvre pas nécessairement toute la diversité des environnements robotiques.
La taille réduite du jeu peut rendre l’évaluation sensible à la saturation ou à une éventuelle contamination des données.

Sources des scores : llm-stats.

RefSpatialBench

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench