Hypersim

Hypersim est un benchmark de vision créé par Apple pour évaluer la compréhension holistique de scènes intérieures synthétiques photoréalistes. Il porte sur des tâches liées à la profondeur, à la géométrie 3D par pixel, à la segmentation d’instances et au grounding spatial.

Hypersim est un benchmark de vision créé par Apple pour évaluer la compréhension holistique de scènes intérieures synthétiques photoréalistes. Il porte sur des tâches liées à la profondeur, à la géométrie 3D par pixel, à la segmentation d’instances et au grounding spatial.

Publié en 2021, il sert à tester la capacité des modèles à raisonner sur la structure spatiale d’un environnement intérieur à partir d’images. Son intérêt principal est de fournir un cadre visuel contrôlé pour mesurer la perception 3D et la segmentation dans des scènes complexes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkApple
Capacités mesuréesCompréhension holistique de scènes intérieures synthétiques photoréalistes : profondeur, géométrie 3D, segmentation d'instances, grounding spatial
ModalitéImage
Type de questionstâche de vision (profondeur, segmentation, géométrie 3D par pixel)
Métrique d'évaluationmétriques de profondeur / segmentation sémantique (selon la tâche)
AccèsPublic
LanguesN/A (vision)
Taille du jeu77 400 images, 461 scènes intérieures
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-35B-A3BQwen13,1 %24 février 2026Auto-déclaré
2Qwen3.5-27BQwen13,0 %24 février 2026Auto-déclaré
3Qwen3.5-122B-A10BQwen12,7 %24 février 2026Auto-déclaré
4Qwen3 VL 235B A22B ThinkingQwen11,0 %22 septembre 2025Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 12,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Hypersim indique une meilleure capacité à estimer la profondeur, interpréter la géométrie 3D et segmenter correctement des scènes intérieures synthétiques. Le benchmark est particulièrement utile pour distinguer les modèles capables d’exploiter des indices visuels fins dans des environnements photoréalistes, au-delà d’une simple reconnaissance d’objets.

Dans la base considérée, les résultats doivent toutefois être interprétés avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. La rigueur dépend donc de la cohérence des protocoles utilisés pour chaque tâche. Le classement est peu discriminant à ce stade : quatre modèles seulement sont évalués, le score médian atteint 13 %, et le meilleur modèle répertorié, Qwen3.5-35B-A3B, obtient également 13 %. Cela suggère soit une couverture encore limitée du benchmark dans la base, soit une absence d’écart observable entre les modèles suivis. La portée reste centrée sur la vision en scènes intérieures synthétiques, ce qui limite l’extrapolation à d’autres contextes visuels ou à des environnements réels.


Sources des scores : llm-stats.