Hypersim
Hypersim est un benchmark de vision créé par Apple pour évaluer la compréhension holistique de scènes intérieures synthétiques photoréalistes. Il porte sur des tâches liées à la profondeur, à la géométrie 3D par pixel, à la segmentation d’instances et au grounding spatial.
Hypersim est un benchmark de vision créé par Apple pour évaluer la compréhension holistique de scènes intérieures synthétiques photoréalistes. Il porte sur des tâches liées à la profondeur, à la géométrie 3D par pixel, à la segmentation d’instances et au grounding spatial.
Publié en 2021, il sert à tester la capacité des modèles à raisonner sur la structure spatiale d’un environnement intérieur à partir d’images. Son intérêt principal est de fournir un cadre visuel contrôlé pour mesurer la perception 3D et la segmentation dans des scènes complexes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Apple |
| Capacités mesurées | Compréhension holistique de scènes intérieures synthétiques photoréalistes : profondeur, géométrie 3D, segmentation d'instances, grounding spatial |
| Modalité | Image |
| Type de questions | tâche de vision (profondeur, segmentation, géométrie 3D par pixel) |
| Métrique d'évaluation | métriques de profondeur / segmentation sémantique (selon la tâche) |
| Accès | Public |
| Langues | N/A (vision) |
| Taille du jeu | 77 400 images, 461 scènes intérieures |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-35B-A3B | Qwen | 13,1 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 13,0 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-122B-A10B | Qwen | 12,7 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3 VL 235B A22B Thinking | Qwen | 11,0 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 12,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Hypersim indique une meilleure capacité à estimer la profondeur, interpréter la géométrie 3D et segmenter correctement des scènes intérieures synthétiques. Le benchmark est particulièrement utile pour distinguer les modèles capables d’exploiter des indices visuels fins dans des environnements photoréalistes, au-delà d’une simple reconnaissance d’objets.
Dans la base considérée, les résultats doivent toutefois être interprétés avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. La rigueur dépend donc de la cohérence des protocoles utilisés pour chaque tâche. Le classement est peu discriminant à ce stade : quatre modèles seulement sont évalués, le score médian atteint 13 %, et le meilleur modèle répertorié, Qwen3.5-35B-A3B, obtient également 13 %. Cela suggère soit une couverture encore limitée du benchmark dans la base, soit une absence d’écart observable entre les modèles suivis. La portée reste centrée sur la vision en scènes intérieures synthétiques, ce qui limite l’extrapolation à d’autres contextes visuels ou à des environnements réels.
Sources des scores : llm-stats.