Vision & multimodal

SUNRGBD

SUNRGBD est un benchmark de compréhension de scènes intérieures fondé sur des images RGB-D, combinant information visuelle et profondeur. Créé par Shuran Song, Samuel P. Lichtenberg et Jianxiong Xiao à Princeton University, il sert à évaluer la capacité des systèmes à relier objets,…

Le benchmark couvre des tâches comme la perception 3D, le raisonnement spatial, la détection d’objets, la segmentation et l’estimation de la disposition de la scène. Il occupe ainsi une place utile pour mesurer l’ancrage 3D des modèles au-delà de la seule reconnaissance d’images 2D.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Shuran Song, Samuel P. Lichtenberg et Jianxiong Xiao (Princeton University)
Capacités mesurées	3D, raisonnement spatial, vision
Modalité	Image
Type de questions	images RGB-D annotées pour des tâches de compréhension de scène, détection/segmentation d’objets et localisation 3D
Métrique d'évaluation	variable selon la tâche, notamment AP/mAP pour la détection 2D/3D et métriques de segmentation
Accès	Public
Langues	anglais (noms de catégories et annotations)
Taille du jeu	10 335 images RGB-D
Année de publication	2015
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-122B-A10B	Qwen	36,2 %	24 février 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	35,4 %	24 février 2026	Auto-déclaré
3	Qwen3 VL 235B A22B Thinking	Qwen	34,9 %	22 septembre 2025	Auto-déclaré
4	Qwen3.5-35B-A3B	Qwen	33,4 %	24 février 2026	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 35,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur SUNRGBD indique une meilleure capacité à exploiter des annotations RGB-D pour localiser, segmenter et interpréter des objets dans l’espace, avec des métriques adaptées aux tâches, notamment AP ou mAP pour la détection 2D et 3D, ainsi que des métriques de segmentation. L’évaluation reste toutefois à lire avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité directe entre modèles si les protocoles ne sont pas strictement alignés. La portée du benchmark est également spécifique : scènes intérieures, catégories et annotations en anglais, tâches centrées sur la compréhension RGB-D et la localisation 3D. Le faible écart entre le score médian de l’ensemble et le meilleur résultat observé, Qwen3.5-122B-A10B à 36 %, suggère un classement resserré sur les modèles recensés. Il ne permet pas, à lui seul, de conclure à une supériorité générale hors de ce cadre visuel et spatial.

Sources des scores : llm-stats.

SUNRGBD

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++