Vision & multimodal

EgoSchema

EgoSchema est un benchmark d’évaluation de la compréhension vidéo de longue durée en contexte égocentrique. Créé par K. Mangalam, R. Akshulakov et J. Malik, il s’appuie sur des clips issus d’Ego4D et sur des questions à choix multiples conçues pour tester l’interprétation d’activités…

Son intérêt est de mesurer des capacités qui dépassent la simple reconnaissance visuelle: suivi temporel, liens de causalité et compréhension d’actions inscrites dans une scène vécue à la première personne. Il sert ainsi de repère pour comparer des modèles multimodaux face à des vidéos longues et contextualisées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	K. Mangalam, R. Akshulakov et J. Malik
Capacités mesurées	contexte long, raisonnement, vision
Modalité	Vidéo
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Taille du jeu	5 031 questions à choix multiples fondées sur des clips vidéo d’environ 3 minutes
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2-VL-72B-Instruct	Qwen	77,9 %	29 août 2024	Auto-déclaré
2	Qwen2.5 VL 72B Instruct	Qwen	76,2 %	26 janvier 2025	Auto-déclaré
3	GPT-4o	OpenAI	72,2 %	27 mars 2025	Auto-déclaré
4	Nova Pro	Amazon	72,1 %	20 novembre 2024	Auto-déclaré
5	Gemini 2.0 Flash	Google	71,5 %	21 janvier 2025	Auto-déclaré
6	Nova Lite	Amazon	71,4 %	20 novembre 2024	Auto-déclaré
7	Qwen2.5-Omni-7B	Qwen	68,6 %	27 mars 2025	Auto-déclaré
8	Gemini 2.0 Flash-Lite	Google	67,2 %	5 février 2025	Auto-déclaré
9	Gemini 1.0 Pro	Google	55,7 %	15 février 2024	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 71,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur EgoSchema indique qu’un modèle parvient à exploiter plusieurs minutes de vidéo pour répondre à des questions nécessitant une compréhension temporelle et causale, plutôt qu’une lecture isolée d’images. La métrique accuracy rend la comparaison directe, mais l’interprétation doit rester prudente: dans la base, les scores sont majoritairement auto-déclarés par les éditeurs, tandis que le jeu de test privé limite l’accès aux réponses et réduit le risque de surapprentissage public.

Le classement montre un niveau déjà élevé, avec une médiane à 72% et un meilleur résultat à 78% pour Qwen2-VL-72B-Instruct. Cet écart suggère une marge de progression encore visible, sans saturation complète. Les limites tiennent aussi à la portée du benchmark: il couvre des vidéos égocentriques en anglais, centrées sur des activités humaines naturelles, et ne résume donc pas toute la compréhension vidéo ni toutes les langues ou situations multimodales possibles.

Sources des scores : llm-stats.

EgoSchema

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench