BabyVision

BabyVision est un benchmark consacré au raisonnement visuel précoce, inspiré de tâches de vision de type enfant. Créé par les auteurs BabyVision, dont Liang Chen, Baobao Chang et UniPat-AI, il vise à isoler des capacités perceptives élémentaires plutôt qu’à mesurer des connaissances…

BabyVision est un benchmark consacré au raisonnement visuel précoce, inspiré de tâches de vision de type enfant. Créé par les auteurs BabyVision, dont Liang Chen, Baobao Chang et UniPat-AI, il vise à isoler des capacités perceptives élémentaires plutôt qu’à mesurer des connaissances linguistiques ou encyclopédiques.

Le test évalue des primitives visuelles pre-linguistiques comme la discrimination fine, le suivi visuel, la perception spatiale et la reconnaissance de motifs. Son rôle est d’éclairer la capacité des modèles à traiter des scènes et relations visuelles simples, indépendamment du langage.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs BabyVision (Liang Chen, Baobao Chang et al. ; UniPat-AI)
Capacités mesuréesPrimitives visuelles pre-linguistiques : discrimination fine, suivi visuel, perception spatiale et reconnaissance de motifs, evaluees independamment des connaissances linguistiques.
ModalitéMultimodal
Type de questionsTaches de perception/raisonnement visuel (discrimination fine, suivi, perception spatiale, reconnaissance de motifs)
Métrique d'évaluationExactitude (accuracy) vs baselines humaines
AccèsPublic
LanguesIndependant du langage (visuel)
Taille du jeu388 items, 22 sous-classes, 4 domaines
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance73,7 %24 juin 2026Auto-déclaré
2Qwen3.7-PlusQwen70,4 %31 mai 2026Auto-déclaré
3Kimi K2.6Moonshot AI68,5 %20 avril 2026Auto-déclaré
4Seed 2.1 Turbobytedance62,9 %24 juin 2026Auto-déclaré
5Qwen3.5-27BQwen44,6 %24 février 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen40,2 %24 février 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen38,4 %24 février 2026Auto-déclaré

Classement établi sur 7 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 62,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BabyVision indique une meilleure aptitude à résoudre des tâches de perception et de raisonnement visuel centrées sur des capacités de base, avec une comparaison exprimée en exactitude face à des baselines humaines. Dans la base considérée, l’écart entre le score médian de l’ensemble et le meilleur résultat, obtenu par Seed 2.1 Pro (bytedance), suggère une hiérarchie encore différenciée entre modèles sur ces compétences visuelles élémentaires.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la force comparative par rapport à une évaluation entièrement reproduite et contrôlée de manière indépendante. La taille du jeu, 388 items répartis en 22 sous-classes et 4 domaines, donne une couverture structurée mais reste limitée pour conclure à une robustesse générale. Les risques classiques de saturation, si les meilleurs modèles se rapprochent des plafonds, et de contamination, si des items circulent dans les données d’entraînement, doivent également être surveillés. BabyVision renseigne surtout la vision pré-linguistique, pas l’ensemble des capacités multimodales.


Sources des scores : llm-stats.