Vision & multimodal

BabyVision

BabyVision est un benchmark consacré au raisonnement visuel précoce, inspiré de tâches de vision de type enfant. Créé par les auteurs BabyVision, dont Liang Chen, Baobao Chang et UniPat-AI, il vise à isoler des capacités perceptives élémentaires plutôt qu’à mesurer des connaissances…

Le test évalue des primitives visuelles pre-linguistiques comme la discrimination fine, le suivi visuel, la perception spatiale et la reconnaissance de motifs. Son rôle est d’éclairer la capacité des modèles à traiter des scènes et relations visuelles simples, indépendamment du langage.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs BabyVision (Liang Chen, Baobao Chang et al. ; UniPat-AI)
Capacités mesurées	Primitives visuelles pre-linguistiques : discrimination fine, suivi visuel, perception spatiale et reconnaissance de motifs, evaluees independamment des connaissances linguistiques.
Modalité	Multimodal
Type de questions	Taches de perception/raisonnement visuel (discrimination fine, suivi, perception spatiale, reconnaissance de motifs)
Métrique d'évaluation	Exactitude (accuracy) vs baselines humaines
Accès	Public
Langues	Independant du langage (visuel)
Taille du jeu	388 items, 22 sous-classes, 4 domaines
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	73,7 %	24 juin 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	70,4 %	31 mai 2026	Auto-déclaré
3	Kimi K2.6	Moonshot AI	68,5 %	20 avril 2026	Auto-déclaré
4	Seed 2.1 Turbo	bytedance	62,9 %	24 juin 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	44,6 %	24 février 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	40,2 %	24 février 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	38,4 %	24 février 2026	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 62,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BabyVision indique une meilleure aptitude à résoudre des tâches de perception et de raisonnement visuel centrées sur des capacités de base, avec une comparaison exprimée en exactitude face à des baselines humaines. Dans la base considérée, l’écart entre le score médian de l’ensemble et le meilleur résultat, obtenu par Seed 2.1 Pro (bytedance), suggère une hiérarchie encore différenciée entre modèles sur ces compétences visuelles élémentaires.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la force comparative par rapport à une évaluation entièrement reproduite et contrôlée de manière indépendante. La taille du jeu, 388 items répartis en 22 sous-classes et 4 domaines, donne une couverture structurée mais reste limitée pour conclure à une robustesse générale. Les risques classiques de saturation, si les meilleurs modèles se rapprochent des plafonds, et de contamination, si des items circulent dans les données d’entraînement, doivent également être surveillés. BabyVision renseigne surtout la vision pré-linguistique, pas l’ensemble des capacités multimodales.

Sources des scores : llm-stats.

BabyVision

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench