Agents & outils

EmbSpatialBench

EmbSpatialBench est un benchmark public consacré à l’évaluation de la compréhension et du raisonnement spatial incarné des grands modèles vision-langage. Créé par l’Université Fudan, Mengfei Du et al., il cible des situations en perspective égocentrique, où le modèle doit interpréter des…

Le test repose sur des questions à choix multiples en anglais portant sur six relations spatiales. Il sert à comparer la capacité des modèles à raisonner sur l’espace dans des contextes proches de la perception embarquée, au-delà de la simple reconnaissance visuelle.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Université Fudan (Mengfei Du et al.)
Capacités mesurées	Compréhension et raisonnement spatial incarné (embodied) pour grands modèles vision-langage, 6 relations spatiales en perspective égocentrique
Modalité	Image
Type de questions	questions à choix multiples (QCM) sur relations spatiales
Métrique d'évaluation	exactitude (accuracy) sur QCM
Accès	Public
Langues	anglais
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6-27B	Qwen	84,6 %	21 avril 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	84,5 %	24 février 2026	Auto-déclaré
3	Qwen3 VL 235B A22B Thinking	Qwen	84,3 %	22 septembre 2025	Auto-déclaré
4	Qwen3.6-35B-A3B	Qwen	84,3 %	16 avril 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	83,9 %	24 février 2026	Auto-déclaré
6	Seed 2.1 Pro	bytedance	83,4 %	24 juin 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	83,1 %	24 février 2026	Auto-déclaré
8	Seed 2.1 Turbo	bytedance	82,5 %	24 juin 2026	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 84,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur EmbSpatialBench indique qu’un modèle répond correctement à une forte proportion de QCM portant sur des relations spatiales égocentriques. Cette performance suggère une bonne maîtrise de tâches de localisation relative et de raisonnement spatial incarné, mais elle reste liée au format du benchmark, en anglais et à choix multiples. La lecture du classement doit aussi tenir compte de la fiabilité des résultats, majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les scores observés dans la base sont très resserrés, avec une médiane à 84 % et un meilleur résultat à 85 % pour Qwen3.6-27B (Qwen), ce qui peut signaler une forme de saturation ou une capacité réduite du test à départager les meilleurs modèles. Comme le benchmark est public, le risque de contamination des données d’évaluation doit être surveillé. Sa portée reste enfin ciblée : il ne couvre pas l’ensemble du raisonnement spatial incarné ni toutes les langues ou modalités possibles.

Sources des scores : llm-stats.

EmbSpatialBench

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23