CountBench

CountBench est un benchmark de vision-langage consacré au comptage d’objets dans les images. Créé par Google Research et le Weizmann Institute of Science, il évalue la capacité d’un modèle à relier une scène visuelle à une réponse quantitative correcte.

CountBench est un benchmark de vision-langage consacré au comptage d’objets dans les images. Créé par Google Research et le Weizmann Institute of Science, il évalue la capacité d’un modèle à relier une scène visuelle à une réponse quantitative correcte.

Ce test sert à mesurer une compétence simple en apparence, mais importante pour la compréhension visuelle : identifier des objets, distinguer leurs instances et produire un décompte exact. Il contribue ainsi à situer les modèles multimodaux sur une tâche ciblée de raisonnement visuel quantitatif.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle Research / Weizmann Institute of Science
Capacités mesuréesComptage d'objets dans une image, compréhension quantitative en vision-langage
ModalitéImage
Type de questionscomptage d'objets (compréhension image-texte vision-langage)
Métrique d'évaluationexactitude (accuracy) du comptage
AccèsPublic
Languesanglais
Taille du jeu540 images (2 à 10 instances par objet)
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.5-27BQwen97,8 %24 février 2026Auto-déclaré
2Qwen3.5-35B-A3BQwen97,8 %24 février 2026Auto-déclaré
3Qwen3.6-27BQwen97,8 %21 avril 2026Auto-déclaré
4Qwen3.6 PlusQwen97,6 %31 mars 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen97,0 %24 février 2026Auto-déclaré
6Qwen3 VL 235B A22B ThinkingQwen93,7 %22 septembre 2025Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 97,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CountBench indique qu’un modèle parvient généralement à compter correctement les objets présents dans les images du jeu, selon la métrique d’exactitude. Le score médian observé dans la base atteint 98 %, et le meilleur résultat recensé, obtenu par Qwen3.5-27B (Qwen), est également de 98 %. Ce niveau suggère une forte saturation du classement disponible, avec peu d’écart visible entre les modèles évalués.

L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite dans un cadre homogène. La portée du benchmark est aussi spécialisée : il mesure le comptage d’objets en contexte image-texte, en anglais, et non l’ensemble des capacités de vision-langage. Le jeu étant public, un risque de contamination ne peut pas être exclu. Le classement révèle donc surtout une performance élevée sur une tâche ciblée, plus qu’une hiérarchie générale des modèles multimodaux.


Sources des scores : llm-stats.