RefCOCO-avg

RefCOCO-avg est un benchmark d’ancrage visuel qui évalue la capacité d’un modèle à relier une expression en anglais à l’objet correspondant dans une image, via une boîte englobante. Il agrège les résultats des suites RefCOCO, RefCOCO+ et RefCOCOg, issues d’images MS-COCO.

RefCOCO-avg est un benchmark d’ancrage visuel qui évalue la capacité d’un modèle à relier une expression en anglais à l’objet correspondant dans une image, via une boîte englobante. Il agrège les résultats des suites RefCOCO, RefCOCO+ et RefCOCOg, issues d’images MS-COCO.

Ces jeux ont été introduits par Licheng Yu et al. à UNC Chapel Hill pour RefCOCO et RefCOCO+, et par Mao et al. chez Google pour RefCOCOg. RefCOCO-avg sert ainsi de repère synthétique pour mesurer la compréhension d’expressions référentielles, le grounding d’objets et le raisonnement spatial visuel.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLicheng Yu et al. (UNC Chapel Hill) pour RefCOCO/RefCOCO+ ; Mao et al. (Google) pour RefCOCOg
Capacités mesuréesAncrage visuel (grounding) d'objets, compréhension d'expressions référentielles, raisonnement spatial sur images
ModalitéImage
Type de questionscompréhension d'expressions référentielles / grounding (localisation par boîte englobante)
Métrique d'évaluationprécision (Acc@0.5 IoU) moyennée sur RefCOCO, RefCOCO+ et RefCOCOg
AccèsPublic
Languesanglais
Taille du jeuRefCOCO ~142k expressions, RefCOCO+ ~141k, RefCOCOg ~95k (images issues de MS-COCO)
Année de publication2016
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6 PlusQwen93,5 %31 mars 2026Auto-déclaré
2Qwen3.6-27BQwen92,5 %21 avril 2026Auto-déclaré
3Qwen3 VL 235B A22B ThinkingQwen92,4 %22 septembre 2025Auto-déclaré
4Qwen3.6-35B-A3BQwen92,0 %16 avril 2026Auto-déclaré
5Qwen3.5-122B-A10BQwen91,3 %24 février 2026Auto-déclaré
6Qwen3.5-27BQwen90,9 %24 février 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen89,2 %24 février 2026Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 92,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur RefCOCO-avg indique qu’un modèle localise correctement les objets décrits par des expressions référentielles, avec une précision calculée à partir du seuil Acc@0.5 IoU puis moyennée sur les trois variantes du benchmark. Dans la base, les scores sont élevés, avec une médiane à 92% et un meilleur résultat à 94% pour Qwen3.6 Plus, ce qui suggère un classement resserré et un risque de saturation partielle. L’interprétation doit rester prudente, car les résultats disponibles sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation indépendante et reproductible. La portée du test reste également ciblée : il mesure le grounding sur images et expressions en anglais, mais ne couvre pas l’ensemble des capacités multimodales. Comme les images proviennent de MS-COCO, la possibilité de contamination des données d’entraînement doit aussi être prise en compte. Le classement révèle surtout des écarts fins entre modèles déjà très performants sur cette tâche spécifique.


Sources des scores : llm-stats.