ZEROBench
ZEROBench est un benchmark de vision conçu par University of Cambridge et al. pour évaluer la compréhension visuelle en zero-shot sur des tâches particulièrement difficiles. Il cible des questions ouvertes ou numériques fondées sur des images, avec une exigence élevée en interprétation…
ZEROBench est un benchmark de vision conçu par University of Cambridge et al. pour évaluer la compréhension visuelle en zero-shot sur des tâches particulièrement difficiles. Il cible des questions ouvertes ou numériques fondées sur des images, avec une exigence élevée en interprétation fine et en raisonnement spatial.
Son rôle est de distinguer les modèles multimodaux capables d’aller au-delà de la reconnaissance visuelle classique. En confrontant les systèmes à des problèmes visuels complexes, ZEROBench sert de test de robustesse pour le raisonnement multimodal de très haute difficulté.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | University of Cambridge (et al.) |
| Capacités mesurées | Raisonnement visuel multimodal de très haute difficulté, interprétation fine d'images et cognition spatiale |
| Modalité | Image |
| Type de questions | raisonnement visuel difficile (questions ouvertes / numériques sur images) |
| Métrique d'évaluation | exactitude (accuracy), pass@1 et pass@5 |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 100 questions principales + 334 sous-questions |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Turbo | bytedance | 57,2 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Pro | bytedance | 56,3 % | 24 juin 2026 | Auto-déclaré |
| 3 | Muse Spark | Meta | 33,0 % | 8 avril 2026 | Auto-déclaré |
| 4 | Kimi K2.5 | Moonshot AI | 11,0 % | 27 janvier 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 10,0 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 9,0 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 8,0 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3 VL 235B A22B Thinking | Qwen | 4,0 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 10,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ZEROBench indique une capacité à résoudre des problèmes visuels exigeants sans adaptation spécifique, en combinant perception, raisonnement spatial et réponse précise. L’usage de l’accuracy, avec pass@1 et pass@5, permet d’observer à la fois la réponse directe et la capacité du modèle à produire une solution correcte parmi plusieurs tentatives. La lecture des résultats doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des évaluations entièrement indépendantes.
Le score médian de 11% suggère un benchmark encore très difficile pour les modèles recensés, donc peu saturé à ce stade. Le meilleur résultat connu, Seed 2.1 Turbo (bytedance) à 57%, montre cependant un écart net avec l’ensemble du classement. La portée reste centrée sur l’anglais et sur un jeu restreint mais dense de questions principales et de sous-questions, ce qui en fait un signal spécialisé plutôt qu’une mesure générale des capacités multimodales.
Sources des scores : llm-stats.