SUNRGBD
SUNRGBD est un benchmark de compréhension de scènes intérieures fondé sur des images RGB-D, combinant information visuelle et profondeur. Créé par Shuran Song, Samuel P. Lichtenberg et Jianxiong Xiao à Princeton University, il sert à évaluer la capacité des systèmes à relier objets,…
SUNRGBD est un benchmark de compréhension de scènes intérieures fondé sur des images RGB-D, combinant information visuelle et profondeur. Créé par Shuran Song, Samuel P. Lichtenberg et Jianxiong Xiao à Princeton University, il sert à évaluer la capacité des systèmes à relier objets, géométrie et structure spatiale dans des environnements domestiques ou intérieurs.
Le benchmark couvre des tâches comme la perception 3D, le raisonnement spatial, la détection d’objets, la segmentation et l’estimation de la disposition de la scène. Il occupe ainsi une place utile pour mesurer l’ancrage 3D des modèles au-delà de la seule reconnaissance d’images 2D.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Shuran Song, Samuel P. Lichtenberg et Jianxiong Xiao (Princeton University) |
| Capacités mesurées | 3D, raisonnement spatial, vision |
| Modalité | Image |
| Type de questions | images RGB-D annotées pour des tâches de compréhension de scène, détection/segmentation d’objets et localisation 3D |
| Métrique d'évaluation | variable selon la tâche, notamment AP/mAP pour la détection 2D/3D et métriques de segmentation |
| Accès | Public |
| Langues | anglais (noms de catégories et annotations) |
| Taille du jeu | 10 335 images RGB-D |
| Année de publication | 2015 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-122B-A10B | Qwen | 36,2 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 35,4 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Thinking | Qwen | 34,9 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3.5-35B-A3B | Qwen | 33,4 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 35,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur SUNRGBD indique une meilleure capacité à exploiter des annotations RGB-D pour localiser, segmenter et interpréter des objets dans l’espace, avec des métriques adaptées aux tâches, notamment AP ou mAP pour la détection 2D et 3D, ainsi que des métriques de segmentation. L’évaluation reste toutefois à lire avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe entre modèles si les protocoles ne sont pas strictement alignés. La portée du benchmark est également spécifique : scènes intérieures, catégories et annotations en anglais, tâches centrées sur la compréhension RGB-D et la localisation 3D. Le faible écart entre le score médian de l’ensemble et le meilleur résultat observé, Qwen3.5-122B-A10B à 36 %, suggère un classement resserré sur les modèles recensés. Il ne permet pas, à lui seul, de conclure à une supériorité générale hors de ce cadre visuel et spatial.
Sources des scores : llm-stats.