CharadesSTA
CharadesSTA est un benchmark consacré à la localisation temporelle d’activités dans des vidéos à partir de requêtes en langage naturel. Créé par Jiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia, il prolonge Charades avec des annotations temporelles associées à des phrases descriptives.
CharadesSTA est un benchmark consacré à la localisation temporelle d’activités dans des vidéos à partir de requêtes en langage naturel. Créé par Jiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia, il prolonge Charades avec des annotations temporelles associées à des phrases descriptives.
Le benchmark mesure la capacité d’un modèle à relier une demande textuelle à un segment précis d’une vidéo. Il sert ainsi à évaluer la compréhension conjointe du langage et de la vidéo, en particulier pour les systèmes multimodaux devant retrouver le bon moment dans une séquence.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Jiyang Gao, Chen Sun, Zhenheng Yang et Ram Nevatia |
| Capacités mesurées | langage, multimodal, vidéo, vision |
| Modalité | Multimodal |
| Type de questions | requêtes en langage naturel associées à des segments vidéo à localiser temporellement |
| Métrique d'évaluation | Recall@K à différents seuils d’IoU |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 16 128 paires segment-phrase, dont 12 408 en entraînement et 3 720 en test |
| Année de publication | 2017 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 235B A22B Instruct | Qwen | 64,8 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 235B A22B Thinking | Qwen | 63,5 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 30B A3B Instruct | Qwen | 63,5 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 32B Thinking | Qwen | 62,8 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 30B A3B Thinking | Qwen | 62,7 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 32B Instruct | Qwen | 61,2 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 8B Thinking | Qwen | 59,9 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 4B Thinking | Qwen | 59,0 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 8B Instruct | Qwen | 56,0 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 4B Instruct | Qwen | 55,5 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen2.5 VL 32B Instruct | Qwen | 54,2 % | 28 février 2025 | Auto-déclaré |
| 12 | Qwen2.5 VL 7B Instruct | Qwen | 43,6 % | 26 janvier 2025 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 60,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CharadesSTA indique qu’un modèle parvient plus souvent à identifier un segment vidéo pertinent pour une requête textuelle, selon des critères de Recall@K à différents seuils d’IoU. Le résultat reflète donc à la fois la compréhension de la phrase, l’analyse visuelle de l’activité et la précision de la localisation temporelle. La lecture du classement doit toutefois rester prudente, car les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui peut limiter l’homogénéité des conditions d’évaluation.
- Le score médian de 61% et le meilleur score de 65%, obtenu par Qwen3 VL 235B A22B Instruct, suggèrent un écart limité entre les modèles suivis, avec une possible proximité des performances sur ce benchmark.
- La portée reste ciblée : CharadesSTA évalue des requêtes en anglais et des segments d’activités vidéo, sans couvrir l’ensemble des usages multimodaux.
- Comme pour tout jeu public, des risques de saturation ou de contamination doivent être pris en compte.
Sources des scores : llm-stats.