RefSpatialBench
RefSpatialBench est un benchmark public conçu par BAAI (Beijing Academy of Artificial Intelligence) pour évaluer la compréhension des références spatiales et leur ancrage dans des scènes réelles. Il se concentre sur des tâches où un modèle doit interpréter une instruction spatiale et…
RefSpatialBench est un benchmark public conçu par BAAI (Beijing Academy of Artificial Intelligence) pour évaluer la compréhension des références spatiales et leur ancrage dans des scènes réelles. Il se concentre sur des tâches où un modèle doit interpréter une instruction spatiale et identifier une cible, sous forme de point ou de masque.
Publié en 2025, ce test vise surtout les capacités utiles à la robotique et aux systèmes multimodaux incarnés : relier le langage à l’espace visuel, raisonner en plusieurs étapes et produire une localisation exploitable dans l’image.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | BAAI (Beijing Academy of Artificial Intelligence) |
| Capacités mesurées | Compréhension et raisonnement spatial multi-étapes, ancrage (grounding) référentiel pour la robotique |
| Modalité | Image |
| Type de questions | référence spatiale / pointage (prédiction d'un point ou d'un masque cible à partir d'une instruction) |
| Métrique d'évaluation | taux de succès / précision (success rate) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 200 images réelles |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6-27B | Qwen | 70,0 % | 21 avril 2026 | Auto-déclaré |
| 2 | Qwen3 VL 235B A22B Thinking | Qwen | 69,9 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3.5-122B-A10B | Qwen | 69,3 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-27B | Qwen | 67,7 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3.6-35B-A3B | Qwen | 64,3 % | 16 avril 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 63,5 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 68,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur RefSpatialBench indique qu’un modèle parvient relativement bien à transformer une instruction spatiale en localisation visuelle précise. Le benchmark valorise donc moins la reconnaissance générale d’objets que la capacité à suivre une référence, à désambiguïser une cible et à raisonner sur les relations spatiales dans une scène. Dans la base considérée, les résultats sont resserrés : le meilleur modèle, Qwen3.6-27B, atteint 70 %, tandis que la médiane s’établit à 68 %. Cet écart limité suggère un classement peu dispersé, où de petites différences peuvent modifier l’ordre des modèles.
- La fiabilité doit être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de manière indépendante.
- La portée reste ciblée : le jeu repose sur des images réelles et des instructions en anglais, mais il ne couvre pas nécessairement toute la diversité des environnements robotiques.
- La taille réduite du jeu peut rendre l’évaluation sensible à la saturation ou à une éventuelle contamination des données.
Sources des scores : llm-stats.