ZEROBench-Sub

ZEROBench-Sub est un sous-ensemble de ZEROBench consacré au raisonnement visuel particulièrement difficile. Conçu par les auteurs de ZeroBench, dont Jonathan Roberts et Mohammad Reza Taesiri à l’University of Cambridge, il cible des sous-questions qui demandent d’enchaîner plusieurs…

ZEROBench-Sub est un sous-ensemble de ZEROBench consacré au raisonnement visuel particulièrement difficile. Conçu par les auteurs de ZeroBench, dont Jonathan Roberts et Mohammad Reza Taesiri à l’University of Cambridge, il cible des sous-questions qui demandent d’enchaîner plusieurs étapes d’analyse à partir d’images.

Le benchmark sert à évaluer la capacité des modèles à combiner perception fine et raisonnement visuel, au-delà de la simple reconnaissance d’objets. Il occupe ainsi un rôle de test exigeant pour mesurer la robustesse des systèmes multimodaux face à des tâches où l’exactitude de la réponse dépend d’une compréhension visuelle précise.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs ZeroBench (Jonathan Roberts, Mohammad Reza Taesiri et al., University of Cambridge)
Capacités mesuréesRaisonnement visuel multi-etapes tres difficile et perception fine sur images.
ModalitéImage
Type de questionsQuestions de raisonnement visuel (sous-questions)
Métrique d'évaluationExactitude (accuracy)
AccèsPublic
LanguesAnglais
Taille du jeu334 sous-questions (ZeroBench principal = 100 questions)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-122B-A10BQwen36,2 %24 février 2026Auto-déclaré
2Qwen3.5-27BQwen36,2 %24 février 2026Auto-déclaré
3Qwen3.6-35B-A3BQwen34,4 %16 avril 2026Auto-déclaré
4Qwen3.5-35B-A3BQwen34,1 %24 février 2026Auto-déclaré
5Qwen3 VL 235B A22B ThinkingQwen27,7 %22 septembre 2025Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 34,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ZEROBench-Sub indique qu’un modèle parvient à résoudre davantage de sous-questions visuelles complexes avec une réponse exacte. Le niveau général reste bas dans la base observée, avec un score médian de 34 % et un meilleur résultat de 36 % pour Qwen3.5-122B-A10B, ce qui suggère une évaluation encore loin d’être saturée. L’écart réduit entre le meilleur score et la médiane montre aussi que le classement distingue des modèles dans une zone de performance resserrée, plutôt qu’un leadership très net.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de façon indépendante. La portée du benchmark est également spécifique : il mesure des sous-questions en anglais centrées sur des images et ne couvre pas l’ensemble des capacités multimodales. Son accès public impose enfin une vigilance classique sur le risque de contamination lors de l’entraînement ou de l’optimisation des modèles.


Sources des scores : llm-stats.