Vision & multimodal

ZEROBench-Sub

ZEROBench-Sub est un sous-ensemble de ZEROBench consacré au raisonnement visuel particulièrement difficile. Conçu par les auteurs de ZeroBench, dont Jonathan Roberts et Mohammad Reza Taesiri à l’University of Cambridge, il cible des sous-questions qui demandent d’enchaîner plusieurs…

Le benchmark sert à évaluer la capacité des modèles à combiner perception fine et raisonnement visuel, au-delà de la simple reconnaissance d’objets. Il occupe ainsi un rôle de test exigeant pour mesurer la robustesse des systèmes multimodaux face à des tâches où l’exactitude de la réponse dépend d’une compréhension visuelle précise.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs ZeroBench (Jonathan Roberts, Mohammad Reza Taesiri et al., University of Cambridge)
Capacités mesurées	Raisonnement visuel multi-etapes tres difficile et perception fine sur images.
Modalité	Image
Type de questions	Questions de raisonnement visuel (sous-questions)
Métrique d'évaluation	Exactitude (accuracy)
Accès	Public
Langues	Anglais
Taille du jeu	334 sous-questions (ZeroBench principal = 100 questions)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-122B-A10B	Qwen	36,2 %	24 février 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	36,2 %	24 février 2026	Auto-déclaré
3	Qwen3.6-35B-A3B	Qwen	34,4 %	16 avril 2026	Auto-déclaré
4	Qwen3.5-35B-A3B	Qwen	34,1 %	24 février 2026	Auto-déclaré
5	Qwen3 VL 235B A22B Thinking	Qwen	27,7 %	22 septembre 2025	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 34,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ZEROBench-Sub indique qu’un modèle parvient à résoudre davantage de sous-questions visuelles complexes avec une réponse exacte. Le niveau général reste bas dans la base observée, avec un score médian de 34 % et un meilleur résultat de 36 % pour Qwen3.5-122B-A10B, ce qui suggère une évaluation encore loin d’être saturée. L’écart réduit entre le meilleur score et la médiane montre aussi que le classement distingue des modèles dans une zone de performance resserrée, plutôt qu’un leadership très net.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de façon indépendante. La portée du benchmark est également spécifique : il mesure des sous-questions en anglais centrées sur des images et ne couvre pas l’ensemble des capacités multimodales. Son accès public impose enfin une vigilance classique sur le risque de contamination lors de l’entraînement ou de l’optimisation des modèles.

Sources des scores : llm-stats.

ZEROBench-Sub

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench

WMT23

WMT24++