Vision & multimodal

CharadesSTA

CharadesSTA est un benchmark consacré à la localisation temporelle d’activités dans des vidéos à partir de requêtes en langage naturel. Créé par Jiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia, il prolonge Charades avec des annotations temporelles associées à des phrases descriptives.

Le benchmark mesure la capacité d’un modèle à relier une demande textuelle à un segment précis d’une vidéo. Il sert ainsi à évaluer la compréhension conjointe du langage et de la vidéo, en particulier pour les systèmes multimodaux devant retrouver le bon moment dans une séquence.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Jiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia
Capacités mesurées	langage, multimodal, vidéo, vision
Modalité	Multimodal
Type de questions	requêtes en langage naturel associées à des segments vidéo à localiser temporellement
Métrique d'évaluation	Recall@K à différents seuils d’IoU
Accès	Public
Langues	anglais
Taille du jeu	16 128 paires segment-phrase, dont 12 408 en entraînement et 3 720 en test
Année de publication	2017
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 12)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 235B A22B Instruct	Qwen	64,8 %	22 septembre 2025	Auto-déclaré
2	Qwen3 VL 235B A22B Thinking	Qwen	63,5 %	22 septembre 2025	Auto-déclaré
3	Qwen3 VL 30B A3B Instruct	Qwen	63,5 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 32B Thinking	Qwen	62,8 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 30B A3B Thinking	Qwen	62,7 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 32B Instruct	Qwen	61,2 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 8B Thinking	Qwen	59,9 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 4B Thinking	Qwen	59,0 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 8B Instruct	Qwen	56,0 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 4B Instruct	Qwen	55,5 %	22 septembre 2025	Auto-déclaré
11	Qwen2.5 VL 32B Instruct	Qwen	54,2 %	28 février 2025	Auto-déclaré
12	Qwen2.5 VL 7B Instruct	Qwen	43,6 %	26 janvier 2025	Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 60,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CharadesSTA indique qu’un modèle parvient plus souvent à identifier un segment vidéo pertinent pour une requête textuelle, selon des critères de Recall@K à différents seuils d’IoU. Le résultat reflète donc à la fois la compréhension de la phrase, l’analyse visuelle de l’activité et la précision de la localisation temporelle. La lecture du classement doit toutefois rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui peut limiter l’homogénéité des conditions d’évaluation.

Le score médian de 61% et le meilleur score de 65%, obtenu par Qwen3 VL 235B A22B Instruct, suggèrent un écart limité entre les modèles suivis, avec une possible proximité des performances sur ce benchmark.
La portée reste ciblée : CharadesSTA évalue des requêtes en anglais et des segments d’activités vidéo, sans couvrir l’ensemble des usages multimodaux.
Comme pour tout jeu public, des risques de saturation ou de contamination doivent être pris en compte.

Sources des scores : llm-stats.

CharadesSTA

Carte d'identité

Classement des modèles (top 12)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23