RefCOCO-avg
RefCOCO-avg est un benchmark d’ancrage visuel qui évalue la capacité d’un modèle à relier une expression en anglais à l’objet correspondant dans une image, via une boîte englobante. Il agrège les résultats des suites RefCOCO, RefCOCO+ et RefCOCOg, issues d’images MS-COCO.
RefCOCO-avg est un benchmark d’ancrage visuel qui évalue la capacité d’un modèle à relier une expression en anglais à l’objet correspondant dans une image, via une boîte englobante. Il agrège les résultats des suites RefCOCO, RefCOCO+ et RefCOCOg, issues d’images MS-COCO.
Ces jeux ont été introduits par Licheng Yu et al. à UNC Chapel Hill pour RefCOCO et RefCOCO+, et par Mao et al. chez Google pour RefCOCOg. RefCOCO-avg sert ainsi de repère synthétique pour mesurer la compréhension d’expressions référentielles, le grounding d’objets et le raisonnement spatial visuel.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Licheng Yu et al. (UNC Chapel Hill) pour RefCOCO/RefCOCO+ ; Mao et al. (Google) pour RefCOCOg |
| Capacités mesurées | Ancrage visuel (grounding) d'objets, compréhension d'expressions référentielles, raisonnement spatial sur images |
| Modalité | Image |
| Type de questions | compréhension d'expressions référentielles / grounding (localisation par boîte englobante) |
| Métrique d'évaluation | précision (Acc@0.5 IoU) moyennée sur RefCOCO, RefCOCO+ et RefCOCOg |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | RefCOCO ~142k expressions, RefCOCO+ ~141k, RefCOCOg ~95k (images issues de MS-COCO) |
| Année de publication | 2016 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 93,5 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3.6-27B | Qwen | 92,5 % | 21 avril 2026 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Thinking | Qwen | 92,4 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3.6-35B-A3B | Qwen | 92,0 % | 16 avril 2026 | Auto-déclaré |
| 5 | Qwen3.5-122B-A10B | Qwen | 91,3 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-27B | Qwen | 90,9 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 89,2 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 92,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur RefCOCO-avg indique qu’un modèle localise correctement les objets décrits par des expressions référentielles, avec une précision calculée à partir du seuil Acc@0.5 IoU puis moyennée sur les trois variantes du benchmark. Dans la base, les scores sont élevés, avec une médiane à 92% et un meilleur résultat à 94% pour Qwen3.6 Plus, ce qui suggère un classement resserré et un risque de saturation partielle. L’interprétation doit rester prudente, car les résultats disponibles sont majoritairement auto-déclarés par les éditeurs, donc moins robustes qu’une évaluation indépendante et reproductible. La portée du test reste également ciblée : il mesure le grounding sur images et expressions en anglais, mais ne couvre pas l’ensemble des capacités multimodales. Comme les images proviennent de MS-COCO, la possibilité de contamination des données d’entraînement doit aussi être prise en compte. Le classement révèle surtout des écarts fins entre modèles déjà très performants sur cette tâche spécifique.
Sources des scores : llm-stats.