ZEROBench-Sub
ZEROBench-Sub est un sous-ensemble de ZEROBench consacré au raisonnement visuel particulièrement difficile. Conçu par les auteurs de ZeroBench, dont Jonathan Roberts et Mohammad Reza Taesiri à l’University of Cambridge, il cible des sous-questions qui demandent d’enchaîner plusieurs…
ZEROBench-Sub est un sous-ensemble de ZEROBench consacré au raisonnement visuel particulièrement difficile. Conçu par les auteurs de ZeroBench, dont Jonathan Roberts et Mohammad Reza Taesiri à l’University of Cambridge, il cible des sous-questions qui demandent d’enchaîner plusieurs étapes d’analyse à partir d’images.
Le benchmark sert à évaluer la capacité des modèles à combiner perception fine et raisonnement visuel, au-delà de la simple reconnaissance d’objets. Il occupe ainsi un rôle de test exigeant pour mesurer la robustesse des systèmes multimodaux face à des tâches où l’exactitude de la réponse dépend d’une compréhension visuelle précise.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs ZeroBench (Jonathan Roberts, Mohammad Reza Taesiri et al., University of Cambridge) |
| Capacités mesurées | Raisonnement visuel multi-etapes tres difficile et perception fine sur images. |
| Modalité | Image |
| Type de questions | Questions de raisonnement visuel (sous-questions) |
| Métrique d'évaluation | Exactitude (accuracy) |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 334 sous-questions (ZeroBench principal = 100 questions) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-122B-A10B | Qwen | 36,2 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 36,2 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.6-35B-A3B | Qwen | 34,4 % | 16 avril 2026 | Auto-déclaré |
| 4 | Qwen3.5-35B-A3B | Qwen | 34,1 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3 VL 235B A22B Thinking | Qwen | 27,7 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 34,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ZEROBench-Sub indique qu’un modèle parvient à résoudre davantage de sous-questions visuelles complexes avec une réponse exacte. Le niveau général reste bas dans la base observée, avec un score médian de 34 % et un meilleur résultat de 36 % pour Qwen3.5-122B-A10B, ce qui suggère une évaluation encore loin d’être saturée. L’écart réduit entre le meilleur score et la médiane montre aussi que le classement distingue des modèles dans une zone de performance resserrée, plutôt qu’un leadership très net.
La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite de façon indépendante. La portée du benchmark est également spécifique : il mesure des sous-questions en anglais centrées sur des images et ne couvre pas l’ensemble des capacités multimodales. Son accès public impose enfin une vigilance classique sur le risque de contamination lors de l’entraînement ou de l’optimisation des modèles.
Sources des scores : llm-stats.