Vision & multimodal

RefCOCO-avg

RefCOCO-avg est un benchmark d’ancrage visuel qui évalue la capacité d’un modèle à relier une expression en anglais à l’objet correspondant dans une image, via une boîte englobante. Il agrège les résultats des suites RefCOCO, RefCOCO+ et RefCOCOg, issues d’images MS-COCO.

Ces jeux ont été introduits par Licheng Yu et al. à UNC Chapel Hill pour RefCOCO et RefCOCO+, et par Mao et al. chez Google pour RefCOCOg. RefCOCO-avg sert ainsi de repère synthétique pour mesurer la compréhension d’expressions référentielles, le grounding d’objets et le raisonnement spatial visuel.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Licheng Yu et al. (UNC Chapel Hill) pour RefCOCO/RefCOCO+ ; Mao et al. (Google) pour RefCOCOg
Capacités mesurées	Ancrage visuel (grounding) d'objets, compréhension d'expressions référentielles, raisonnement spatial sur images
Modalité	Image
Type de questions	compréhension d'expressions référentielles / grounding (localisation par boîte englobante)
Métrique d'évaluation	précision (Acc@0.5 IoU) moyennée sur RefCOCO, RefCOCO+ et RefCOCOg
Accès	Public
Langues	anglais
Taille du jeu	RefCOCO ~142k expressions, RefCOCO+ ~141k, RefCOCOg ~95k (images issues de MS-COCO)
Année de publication	2016
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	93,5 %	31 mars 2026	Auto-déclaré
2	Qwen3.6-27B	Qwen	92,5 %	21 avril 2026	Auto-déclaré
3	Qwen3 VL 235B A22B Thinking	Qwen	92,4 %	22 septembre 2025	Auto-déclaré
4	Qwen3.6-35B-A3B	Qwen	92,0 %	16 avril 2026	Auto-déclaré
5	Qwen3.5-122B-A10B	Qwen	91,3 %	24 février 2026	Auto-déclaré
6	Qwen3.5-27B	Qwen	90,9 %	24 février 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	89,2 %	24 février 2026	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 92,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RefCOCO-avg indique qu’un modèle localise correctement les objets décrits par des expressions référentielles, avec une précision calculée à partir du seuil Acc@0.5 IoU puis moyennée sur les trois variantes du benchmark. Dans la base, les scores sont élevés, avec une médiane à 92% et un meilleur résultat à 94% pour Qwen3.6 Plus, ce qui suggère un classement resserré et un risque de saturation partielle. L’interprétation doit rester prudente, car les résultats disponibles sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation indépendante et reproductible. La portée du test reste également ciblée : il mesure le grounding sur images et expressions en anglais, mais ne couvre pas l’ensemble des capacités multimodales. Comme les images proviennent de MS-COCO, la possibilité de contamination des données d’entraînement doit aussi être prise en compte. Le classement révèle surtout des écarts fins entre modèles déjà très performants sur cette tâche spécifique.

Sources des scores : llm-stats.

RefCOCO-avg

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench