EgoSchema
EgoSchema est un benchmark d’évaluation de la compréhension vidéo de longue durée en contexte égocentrique. Créé par K. Mangalam, R. Akshulakov et J. Malik, il s’appuie sur des clips issus d’Ego4D et sur des questions à choix multiples conçues pour tester l’interprétation d’activités…
EgoSchema est un benchmark d’évaluation de la compréhension vidéo de longue durée en contexte égocentrique. Créé par K. Mangalam, R. Akshulakov et J. Malik, il s’appuie sur des clips issus d’Ego4D et sur des questions à choix multiples conçues pour tester l’interprétation d’activités humaines naturelles.
Son intérêt est de mesurer des capacités qui dépassent la simple reconnaissance visuelle: suivi temporel, liens de causalité et compréhension d’actions inscrites dans une scène vécue à la première personne. Il sert ainsi de repère pour comparer des modèles multimodaux face à des vidéos longues et contextualisées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | K. Mangalam, R. Akshulakov et J. Malik |
| Capacités mesurées | contexte long, raisonnement, vision |
| Modalité | Vidéo |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | 5 031 questions à choix multiples fondées sur des clips vidéo d’environ 3 minutes |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 9)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen2-VL-72B-Instruct | Qwen | 77,9 % | 29 août 2024 | Auto-déclaré |
| 2 | Qwen2.5 VL 72B Instruct | Qwen | 76,2 % | 26 janvier 2025 | Auto-déclaré |
| 3 | GPT-4o | OpenAI | 72,2 % | 27 mars 2025 | Auto-déclaré |
| 4 | Nova Pro | Amazon | 72,1 % | 20 novembre 2024 | Auto-déclaré |
| 5 | Gemini 2.0 Flash | 71,5 % | 21 janvier 2025 | Auto-déclaré | |
| 6 | Nova Lite | Amazon | 71,4 % | 20 novembre 2024 | Auto-déclaré |
| 7 | Qwen2.5-Omni-7B | Qwen | 68,6 % | 27 mars 2025 | Auto-déclaré |
| 8 | Gemini 2.0 Flash-Lite | 67,2 % | 5 février 2025 | Auto-déclaré | |
| 9 | Gemini 1.0 Pro | 55,7 % | 15 février 2024 | Auto-déclaré |
Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 71,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur EgoSchema indique qu’un modèle parvient à exploiter plusieurs minutes de vidéo pour répondre à des questions nécessitant une compréhension temporelle et causale, plutôt qu’une lecture isolée d’images. La métrique accuracy rend la comparaison directe, mais l’interprétation doit rester prudente: dans la base, les scores sont majoritairement auto-déclarés par les éditeurs, tandis que le jeu de test privé limite l’accès aux réponses et réduit le risque de surapprentissage public.
Le classement montre un niveau déjà élevé, avec une médiane à 72% et un meilleur résultat à 78% pour Qwen2-VL-72B-Instruct. Cet écart suggère une marge de progression encore visible, sans saturation complète. Les limites tiennent aussi à la portée du benchmark: il couvre des vidéos égocentriques en anglais, centrées sur des activités humaines naturelles, et ne résume donc pas toute la compréhension vidéo ni toutes les langues ou situations multimodales possibles.
Sources des scores : llm-stats.