Vision & multimodal

CountBench

CountBench est un benchmark de vision-langage consacré au comptage d’objets dans les images. Créé par Google Research et le Weizmann Institute of Science, il évalue la capacité d’un modèle à relier une scène visuelle à une réponse quantitative correcte.

Ce test sert à mesurer une compétence simple en apparence, mais importante pour la compréhension visuelle : identifier des objets, distinguer leurs instances et produire un décompte exact. Il contribue ainsi à situer les modèles multimodaux sur une tâche ciblée de raisonnement visuel quantitatif.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google Research / Weizmann Institute of Science
Capacités mesurées	Comptage d'objets dans une image, compréhension quantitative en vision-langage
Modalité	Image
Type de questions	comptage d'objets (compréhension image-texte vision-langage)
Métrique d'évaluation	exactitude (accuracy) du comptage
Accès	Public
Langues	anglais
Taille du jeu	540 images (2 à 10 instances par objet)
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.5-27B	Qwen	97,8 %	24 février 2026	Auto-déclaré
2	Qwen3.5-35B-A3B	Qwen	97,8 %	24 février 2026	Auto-déclaré
3	Qwen3.6-27B	Qwen	97,8 %	21 avril 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	97,6 %	31 mars 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	97,0 %	24 février 2026	Auto-déclaré
6	Qwen3 VL 235B A22B Thinking	Qwen	93,7 %	22 septembre 2025	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 97,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CountBench indique qu’un modèle parvient généralement à compter correctement les objets présents dans les images du jeu, selon la métrique d’exactitude. Le score médian observé dans la base atteint 98 %, et le meilleur résultat recensé, obtenu par Qwen3.5-27B (Qwen), est également de 98 %. Ce niveau suggère une forte saturation du classement disponible, avec peu d’écart visible entre les modèles évalués.

L’interprétation doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite dans un cadre homogène. La portée du benchmark est aussi spécialisée : il mesure le comptage d’objets en contexte image-texte, en anglais, et non l’ensemble des capacités de vision-langage. Le jeu étant public, un risque de contamination ne peut pas être exclu. Le classement révèle donc surtout une performance élevée sur une tâche ciblée, plus qu’une hiérarchie générale des modèles multimodaux.

Sources des scores : llm-stats.

CountBench

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench