Vision & multimodal

Hypersim

Hypersim est un benchmark de vision créé par Apple pour évaluer la compréhension holistique de scènes intérieures synthétiques photoréalistes. Il porte sur des tâches liées à la profondeur, à la géométrie 3D par pixel, à la segmentation d’instances et au grounding spatial.

Publié en 2021, il sert à tester la capacité des modèles à raisonner sur la structure spatiale d’un environnement intérieur à partir d’images. Son intérêt principal est de fournir un cadre visuel contrôlé pour mesurer la perception 3D et la segmentation dans des scènes complexes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Apple
Capacités mesurées	Compréhension holistique de scènes intérieures synthétiques photoréalistes : profondeur, géométrie 3D, segmentation d'instances, grounding spatial
Modalité	Image
Type de questions	tâche de vision (profondeur, segmentation, géométrie 3D par pixel)
Métrique d'évaluation	métriques de profondeur / segmentation sémantique (selon la tâche)
Accès	Public
Langues	N/A (vision)
Taille du jeu	77 400 images, 461 scènes intérieures
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-35B-A3B	Qwen	13,1 %	24 février 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	13,0 %	24 février 2026	Auto-déclaré
3	Qwen3.5-122B-A10B	Qwen	12,7 %	24 février 2026	Auto-déclaré
4	Qwen3 VL 235B A22B Thinking	Qwen	11,0 %	22 septembre 2025	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 12,8 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Hypersim indique une meilleure capacité à estimer la profondeur, interpréter la géométrie 3D et segmenter correctement des scènes intérieures synthétiques. Le benchmark est particulièrement utile pour distinguer les modèles capables d’exploiter des indices visuels fins dans des environnements photoréalistes, au-delà d’une simple reconnaissance d’objets.

Dans la base considérée, les résultats doivent toutefois être interprétés avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. La rigueur dépend donc de la cohérence des protocoles utilisés pour chaque tâche. Le classement est peu discriminant à ce stade : quatre modèles seulement sont évalués, le score médian atteint 13 %, et le meilleur modèle répertorié, Qwen3.5-35B-A3B, obtient également 13 %. Cela suggère soit une couverture encore limitée du benchmark dans la base, soit une absence d’écart observable entre les modèles suivis. La portée reste centrée sur la vision en scènes intérieures synthétiques, ce qui limite l’extrapolation à d’autres contextes visuels ou à des environnements réels.

Sources des scores : llm-stats.

Hypersim

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench