CountBench
CountBench est un benchmark de vision-langage consacré au comptage d’objets dans les images. Créé par Google Research et le Weizmann Institute of Science, il évalue la capacité d’un modèle à relier une scène visuelle à une réponse quantitative correcte.
CountBench est un benchmark de vision-langage consacré au comptage d’objets dans les images. Créé par Google Research et le Weizmann Institute of Science, il évalue la capacité d’un modèle à relier une scène visuelle à une réponse quantitative correcte.
Ce test sert à mesurer une compétence simple en apparence, mais importante pour la compréhension visuelle : identifier des objets, distinguer leurs instances et produire un décompte exact. Il contribue ainsi à situer les modèles multimodaux sur une tâche ciblée de raisonnement visuel quantitatif.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google Research / Weizmann Institute of Science |
| Capacités mesurées | Comptage d'objets dans une image, compréhension quantitative en vision-langage |
| Modalité | Image |
| Type de questions | comptage d'objets (compréhension image-texte vision-langage) |
| Métrique d'évaluation | exactitude (accuracy) du comptage |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 540 images (2 à 10 instances par objet) |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.5-27B | Qwen | 97,8 % | 24 février 2026 | Auto-déclaré |
| 2 | Qwen3.5-35B-A3B | Qwen | 97,8 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.6-27B | Qwen | 97,8 % | 21 avril 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 97,6 % | 31 mars 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 97,0 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3 VL 235B A22B Thinking | Qwen | 93,7 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 97,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CountBench indique qu’un modèle parvient généralement à compter correctement les objets présents dans les images du jeu, selon la métrique d’exactitude. Le score médian observé dans la base atteint 98 %, et le meilleur résultat recensé, obtenu par Qwen3.5-27B (Qwen), est également de 98 %. Ce niveau suggère une forte saturation du classement disponible, avec peu d’écart visible entre les modèles évalués.
L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite dans un cadre homogène. La portée du benchmark est aussi spécialisée : il mesure le comptage d’objets en contexte image-texte, en anglais, et non l’ensemble des capacités de vision-langage. Le jeu étant public, un risque de contamination ne peut pas être exclu. Le classement révèle donc surtout une performance élevée sur une tâche ciblée, plus qu’une hiérarchie générale des modèles multimodaux.
Sources des scores : llm-stats.