BabyVision
BabyVision est un benchmark consacré au raisonnement visuel précoce, inspiré de tâches de vision de type enfant. Créé par les auteurs BabyVision, dont Liang Chen, Baobao Chang et UniPat-AI, il vise à isoler des capacités perceptives élémentaires plutôt qu’à mesurer des connaissances…
BabyVision est un benchmark consacré au raisonnement visuel précoce, inspiré de tâches de vision de type enfant. Créé par les auteurs BabyVision, dont Liang Chen, Baobao Chang et UniPat-AI, il vise à isoler des capacités perceptives élémentaires plutôt qu’à mesurer des connaissances linguistiques ou encyclopédiques.
Le test évalue des primitives visuelles pre-linguistiques comme la discrimination fine, le suivi visuel, la perception spatiale et la reconnaissance de motifs. Son rôle est d’éclairer la capacité des modèles à traiter des scènes et relations visuelles simples, indépendamment du langage.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs BabyVision (Liang Chen, Baobao Chang et al. ; UniPat-AI) |
| Capacités mesurées | Primitives visuelles pre-linguistiques : discrimination fine, suivi visuel, perception spatiale et reconnaissance de motifs, evaluees independamment des connaissances linguistiques. |
| Modalité | Multimodal |
| Type de questions | Taches de perception/raisonnement visuel (discrimination fine, suivi, perception spatiale, reconnaissance de motifs) |
| Métrique d'évaluation | Exactitude (accuracy) vs baselines humaines |
| Accès | Public |
| Langues | Independant du langage (visuel) |
| Taille du jeu | 388 items, 22 sous-classes, 4 domaines |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 73,7 % | 24 juin 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 70,4 % | 31 mai 2026 | Auto-déclaré |
| 3 | Kimi K2.6 | Moonshot AI | 68,5 % | 20 avril 2026 | Auto-déclaré |
| 4 | Seed 2.1 Turbo | bytedance | 62,9 % | 24 juin 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 44,6 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 40,2 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 38,4 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 62,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BabyVision indique une meilleure aptitude à résoudre des tâches de perception et de raisonnement visuel centrées sur des capacités de base, avec une comparaison exprimée en exactitude face à des baselines humaines. Dans la base considérée, l’écart entre le score médian de l’ensemble et le meilleur résultat, obtenu par Seed 2.1 Pro (bytedance), suggère une hiérarchie encore différenciée entre modèles sur ces compétences visuelles élémentaires.
La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la force comparative par rapport à une évaluation entièrement reproduite et contrôlée de manière indépendante. La taille du jeu, 388 items répartis en 22 sous-classes et 4 domaines, donne une couverture structurée mais reste limitée pour conclure à une robustesse générale. Les risques classiques de saturation, si les meilleurs modèles se rapprochent des plafonds, et de contamination, si des items circulent dans les données d’entraînement, doivent également être surveillés. BabyVision renseigne surtout la vision pré-linguistique, pas l’ensemble des capacités multimodales.
Sources des scores : llm-stats.