EmbSpatialBench

EmbSpatialBench est un benchmark public consacré à l’évaluation de la compréhension et du raisonnement spatial incarné des grands modèles vision-langage. Créé par l’Université Fudan, Mengfei Du et al., il cible des situations en perspective égocentrique, où le modèle doit interpréter des…

EmbSpatialBench est un benchmark public consacré à l’évaluation de la compréhension et du raisonnement spatial incarné des grands modèles vision-langage. Créé par l’Université Fudan, Mengfei Du et al., il cible des situations en perspective égocentrique, où le modèle doit interpréter des relations spatiales à partir d’un point de vue incarné.

Le test repose sur des questions à choix multiples en anglais portant sur six relations spatiales. Il sert à comparer la capacité des modèles à raisonner sur l’espace dans des contextes proches de la perception embarquée, au-delà de la simple reconnaissance visuelle.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkUniversité Fudan (Mengfei Du et al.)
Capacités mesuréesCompréhension et raisonnement spatial incarné (embodied) pour grands modèles vision-langage, 6 relations spatiales en perspective égocentrique
ModalitéImage
Type de questionsquestions à choix multiples (QCM) sur relations spatiales
Métrique d'évaluationexactitude (accuracy) sur QCM
AccèsPublic
Languesanglais
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6-27BQwen84,6 %21 avril 2026Auto-déclaré
2Qwen3.5-27BQwen84,5 %24 février 2026Auto-déclaré
3Qwen3 VL 235B A22B ThinkingQwen84,3 %22 septembre 2025Auto-déclaré
4Qwen3.6-35B-A3BQwen84,3 %16 avril 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen83,9 %24 février 2026Auto-déclaré
6Seed 2.1 Probytedance83,4 %24 juin 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen83,1 %24 février 2026Auto-déclaré
8Seed 2.1 Turbobytedance82,5 %24 juin 2026Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 84,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur EmbSpatialBench indique qu’un modèle répond correctement à une forte proportion de QCM portant sur des relations spatiales égocentriques. Cette performance suggère une bonne maîtrise de tâches de localisation relative et de raisonnement spatial incarné, mais elle reste liée au format du benchmark, en anglais et à choix multiples. La lecture du classement doit aussi tenir compte de la fiabilité des résultats, majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les scores observés dans la base sont très resserrés, avec une médiane à 84 % et un meilleur résultat à 85 % pour Qwen3.6-27B (Qwen), ce qui peut signaler une forme de saturation ou une capacité réduite du test à départager les meilleurs modèles. Comme le benchmark est public, le risque de contamination des données d’évaluation doit être surveillé. Sa portée reste enfin ciblée : il ne couvre pas l’ensemble du raisonnement spatial incarné ni toutes les langues ou modalités possibles.


Sources des scores : llm-stats.