EmbSpatialBench
EmbSpatialBench est un benchmark public consacré à l’évaluation de la compréhension et du raisonnement spatial incarné des grands modèles vision-langage. Créé par l’Université Fudan, Mengfei Du et al., il cible des situations en perspective égocentrique, où le modèle doit interpréter des…
EmbSpatialBench est un benchmark public consacré à l’évaluation de la compréhension et du raisonnement spatial incarné des grands modèles vision-langage. Créé par l’Université Fudan, Mengfei Du et al., il cible des situations en perspective égocentrique, où le modèle doit interpréter des relations spatiales à partir d’un point de vue incarné.
Le test repose sur des questions à choix multiples en anglais portant sur six relations spatiales. Il sert à comparer la capacité des modèles à raisonner sur l’espace dans des contextes proches de la perception embarquée, au-delà de la simple reconnaissance visuelle.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Université Fudan (Mengfei Du et al.) |
| Capacités mesurées | Compréhension et raisonnement spatial incarné (embodied) pour grands modèles vision-langage, 6 relations spatiales en perspective égocentrique |
| Modalité | Image |
| Type de questions | questions à choix multiples (QCM) sur relations spatiales |
| Métrique d'évaluation | exactitude (accuracy) sur QCM |
| Accès | Public |
| Langues | anglais |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6-27B | Qwen | 84,6 % | 21 avril 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 84,5 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Thinking | Qwen | 84,3 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3.6-35B-A3B | Qwen | 84,3 % | 16 avril 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 83,9 % | 24 février 2026 | Auto-déclaré |
| 6 | Seed 2.1 Pro | bytedance | 83,4 % | 24 juin 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 83,1 % | 24 février 2026 | Auto-déclaré |
| 8 | Seed 2.1 Turbo | bytedance | 82,5 % | 24 juin 2026 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 84,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur EmbSpatialBench indique qu’un modèle répond correctement à une forte proportion de QCM portant sur des relations spatiales égocentriques. Cette performance suggère une bonne maîtrise de tâches de localisation relative et de raisonnement spatial incarné, mais elle reste liée au format du benchmark, en anglais et à choix multiples. La lecture du classement doit aussi tenir compte de la fiabilité des résultats, majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les scores observés dans la base sont très resserrés, avec une médiane à 84 % et un meilleur résultat à 85 % pour Qwen3.6-27B (Qwen), ce qui peut signaler une forme de saturation ou une capacité réduite du test à départager les meilleurs modèles. Comme le benchmark est public, le risque de contamination des données d’évaluation doit être surveillé. Sa portée reste enfin ciblée : il ne couvre pas l’ensemble du raisonnement spatial incarné ni toutes les langues ou modalités possibles.
Sources des scores : llm-stats.