EgoSchema

EgoSchema est un benchmark d’évaluation de la compréhension vidéo de longue durée en contexte égocentrique. Créé par K. Mangalam, R. Akshulakov et J. Malik, il s’appuie sur des clips issus d’Ego4D et sur des questions à choix multiples conçues pour tester l’interprétation d’activités…

EgoSchema est un benchmark d’évaluation de la compréhension vidéo de longue durée en contexte égocentrique. Créé par K. Mangalam, R. Akshulakov et J. Malik, il s’appuie sur des clips issus d’Ego4D et sur des questions à choix multiples conçues pour tester l’interprétation d’activités humaines naturelles.

Son intérêt est de mesurer des capacités qui dépassent la simple reconnaissance visuelle: suivi temporel, liens de causalité et compréhension d’actions inscrites dans une scène vécue à la première personne. Il sert ainsi de repère pour comparer des modèles multimodaux face à des vidéos longues et contextualisées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkK. Mangalam, R. Akshulakov et J. Malik
Capacités mesuréescontexte long, raisonnement, vision
ModalitéVidéo
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Taille du jeu5 031 questions à choix multiples fondées sur des clips vidéo d’environ 3 minutes
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Qwen2-VL-72B-InstructQwen77,9 %29 août 2024Auto-déclaré
2Qwen2.5 VL 72B InstructQwen76,2 %26 janvier 2025Auto-déclaré
3GPT-4oOpenAI72,2 %27 mars 2025Auto-déclaré
4Nova ProAmazon72,1 %20 novembre 2024Auto-déclaré
5Gemini 2.0 FlashGoogle71,5 %21 janvier 2025Auto-déclaré
6Nova LiteAmazon71,4 %20 novembre 2024Auto-déclaré
7Qwen2.5-Omni-7BQwen68,6 %27 mars 2025Auto-déclaré
8Gemini 2.0 Flash-LiteGoogle67,2 %5 février 2025Auto-déclaré
9Gemini 1.0 ProGoogle55,7 %15 février 2024Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 71,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur EgoSchema indique qu’un modèle parvient à exploiter plusieurs minutes de vidéo pour répondre à des questions nécessitant une compréhension temporelle et causale, plutôt qu’une lecture isolée d’images. La métrique accuracy rend la comparaison directe, mais l’interprétation doit rester prudente: dans la base, les scores sont majoritairement auto-déclarés par les éditeurs, tandis que le jeu de test privé limite l’accès aux réponses et réduit le risque de surapprentissage public.

Le classement montre un niveau déjà élevé, avec une médiane à 72% et un meilleur résultat à 78% pour Qwen2-VL-72B-Instruct. Cet écart suggère une marge de progression encore visible, sans saturation complète. Les limites tiennent aussi à la portée du benchmark: il couvre des vidéos égocentriques en anglais, centrées sur des activités humaines naturelles, et ne résume donc pas toute la compréhension vidéo ni toutes les langues ou situations multimodales possibles.


Sources des scores : llm-stats.