CharadesSTA

CharadesSTA est un benchmark consacré à la localisation temporelle d’activités dans des vidéos à partir de requêtes en langage naturel. Créé par Jiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia, il prolonge Charades avec des annotations temporelles associées à des phrases descriptives.

CharadesSTA est un benchmark consacré à la localisation temporelle d’activités dans des vidéos à partir de requêtes en langage naturel. Créé par Jiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia, il prolonge Charades avec des annotations temporelles associées à des phrases descriptives.

Le benchmark mesure la capacité d’un modèle à relier une demande textuelle à un segment précis d’une vidéo. Il sert ainsi à évaluer la compréhension conjointe du langage et de la vidéo, en particulier pour les systèmes multimodaux devant retrouver le bon moment dans une séquence.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkJiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia
Capacités mesuréeslangage, multimodal, vidéo, vision
ModalitéMultimodal
Type de questionsrequêtes en langage naturel associées à des segments vidéo à localiser temporellement
Métrique d'évaluationRecall@K à différents seuils d’IoU
AccèsPublic
Languesanglais
Taille du jeu16 128 paires segment-phrase, dont 12 408 en entraînement et 3 720 en test
Année de publication2017
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 12)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 235B A22B InstructQwen64,8 %22 septembre 2025Auto-déclaré
2Qwen3 VL 235B A22B ThinkingQwen63,5 %22 septembre 2025Auto-déclaré
3Qwen3 VL 30B A3B InstructQwen63,5 %22 septembre 2025Auto-déclaré
4Qwen3 VL 32B ThinkingQwen62,8 %22 septembre 2025Auto-déclaré
5Qwen3 VL 30B A3B ThinkingQwen62,7 %22 septembre 2025Auto-déclaré
6Qwen3 VL 32B InstructQwen61,2 %22 septembre 2025Auto-déclaré
7Qwen3 VL 8B ThinkingQwen59,9 %22 septembre 2025Auto-déclaré
8Qwen3 VL 4B ThinkingQwen59,0 %22 septembre 2025Auto-déclaré
9Qwen3 VL 8B InstructQwen56,0 %22 septembre 2025Auto-déclaré
10Qwen3 VL 4B InstructQwen55,5 %22 septembre 2025Auto-déclaré
11Qwen2.5 VL 32B InstructQwen54,2 %28 février 2025Auto-déclaré
12Qwen2.5 VL 7B InstructQwen43,6 %26 janvier 2025Auto-déclaré

Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 60,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CharadesSTA indique qu’un modèle parvient plus souvent à identifier un segment vidéo pertinent pour une requête textuelle, selon des critères de Recall@K à différents seuils d’IoU. Le résultat reflète donc à la fois la compréhension de la phrase, l’analyse visuelle de l’activité et la précision de la localisation temporelle. La lecture du classement doit toutefois rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui peut limiter l’homogénéité des conditions d’évaluation.

  • Le score médian de 61% et le meilleur score de 65%, obtenu par Qwen3 VL 235B A22B Instruct, suggèrent un écart limité entre les modèles suivis, avec une possible proximité des performances sur ce benchmark.
  • La portée reste ciblée : CharadesSTA évalue des requêtes en anglais et des segments d’activités vidéo, sans couvrir l’ensemble des usages multimodaux.
  • Comme pour tout jeu public, des risques de saturation ou de contamination doivent être pris en compte.

Sources des scores : llm-stats.