SUNRGBD

SUNRGBD est un benchmark de compréhension de scènes intérieures fondé sur des images RGB-D, combinant information visuelle et profondeur. Créé par Shuran Song, Samuel P. Lichtenberg et Jianxiong Xiao à Princeton University, il sert à évaluer la capacité des systèmes à relier objets,…

SUNRGBD est un benchmark de compréhension de scènes intérieures fondé sur des images RGB-D, combinant information visuelle et profondeur. Créé par Shuran Song, Samuel P. Lichtenberg et Jianxiong Xiao à Princeton University, il sert à évaluer la capacité des systèmes à relier objets, géométrie et structure spatiale dans des environnements domestiques ou intérieurs.

Le benchmark couvre des tâches comme la perception 3D, le raisonnement spatial, la détection d’objets, la segmentation et l’estimation de la disposition de la scène. Il occupe ainsi une place utile pour mesurer l’ancrage 3D des modèles au-delà de la seule reconnaissance d’images 2D.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkShuran Song, Samuel P. Lichtenberg et Jianxiong Xiao (Princeton University)
Capacités mesurées3D, raisonnement spatial, vision
ModalitéImage
Type de questionsimages RGB-D annotées pour des tâches de compréhension de scène, détection/segmentation d’objets et localisation 3D
Métrique d'évaluationvariable selon la tâche, notamment AP/mAP pour la détection 2D/3D et métriques de segmentation
AccèsPublic
Languesanglais (noms de catégories et annotations)
Taille du jeu10 335 images RGB-D
Année de publication2015
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-122B-A10BQwen36,2 %24 février 2026Auto-déclaré
2Qwen3.5-27BQwen35,4 %24 février 2026Auto-déclaré
3Qwen3 VL 235B A22B ThinkingQwen34,9 %22 septembre 2025Auto-déclaré
4Qwen3.5-35B-A3BQwen33,4 %24 février 2026Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 35,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SUNRGBD indique une meilleure capacité à exploiter des annotations RGB-D pour localiser, segmenter et interpréter des objets dans l’espace, avec des métriques adaptées aux tâches, notamment AP ou mAP pour la détection 2D et 3D, ainsi que des métriques de segmentation. L’évaluation reste toutefois à lire avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe entre modèles si les protocoles ne sont pas strictement alignés. La portée du benchmark est également spécifique : scènes intérieures, catégories et annotations en anglais, tâches centrées sur la compréhension RGB-D et la localisation 3D. Le faible écart entre le score médian de l’ensemble et le meilleur résultat observé, Qwen3.5-122B-A10B à 36 %, suggère un classement resserré sur les modèles recensés. Il ne permet pas, à lui seul, de conclure à une supériorité générale hors de ce cadre visuel et spatial.


Sources des scores : llm-stats.