Vision & multimodal

DocVQA

DocVQA est un benchmark de Visual Question Answering appliqué aux images de documents, publié en 2020 par M. Mathew, D. Karatzas et R. Manmatha. Il vise à évaluer la capacité d’un modèle à lire un document visuel, à en comprendre la structure et à retrouver l’information pertinente pour…

Son intérêt tient à la combinaison entre perception visuelle, compréhension de la mise en page et extraction d’information. DocVQA sert ainsi de repère pour mesurer les modèles capables de traiter des documents réels, au-delà de la simple reconnaissance de texte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	M. Mathew, D. Karatzas et R. Manmatha
Capacités mesurées	image vers texte, multimodal, vision
Modalité	Multimodal
Type de questions	questions ouvertes à réponse courte sur images de documents
Métrique d'évaluation	ANLS
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Taille du jeu	environ 50 000 questions sur plus de 12 000 images de documents
Année de publication	2020
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2.5 VL 72B Instruct	Qwen	96,4 %	26 janvier 2025	Auto-déclaré
2	Qwen2.5 VL 7B Instruct	Qwen	95,7 %	26 janvier 2025	Auto-déclaré
3	Claude 3.5 Sonnet	Anthropic	95,2 %	22 octobre 2024	Auto-déclaré
4	Qwen2.5-Omni-7B	Qwen	95,2 %	27 mars 2025	Auto-déclaré
5	Mistral Small 3.2 24B Instruct	Mistral AI	94,9 %	20 juin 2025	Auto-déclaré
6	Qwen2.5 VL 32B Instruct	Qwen	94,8 %	28 février 2025	Auto-déclaré
7	Llama 4 Maverick	Meta	94,4 %	5 avril 2025	Auto-déclaré
8	Llama 4 Scout	Meta	94,4 %	5 avril 2025	Auto-déclaré
9	Grok-2	xAI	93,6 %	13 août 2024	Auto-déclaré
10	Nova Pro	Amazon	93,5 %	20 novembre 2024	Auto-déclaré
11	DeepSeek VL2	DeepSeek	93,3 %	13 décembre 2024	Auto-déclaré
12	Pixtral Large	Mistral AI	93,3 %	18 novembre 2024	Auto-déclaré
13	Grok-2 mini	xAI	93,2 %	13 août 2024	Auto-déclaré
14	Phi-4-multimodal-instruct	Microsoft	93,2 %	1 février 2025	Auto-déclaré
15	GPT-4o	OpenAI	92,8 %	27 mars 2025	Auto-déclaré
16	Nova Lite	Amazon	92,4 %	20 novembre 2024	Auto-déclaré
17	DeepSeek VL2 Small	DeepSeek	92,3 %	13 décembre 2024	Auto-déclaré
18	Pixtral-12B	Mistral AI	90,7 %	17 septembre 2024	Auto-déclaré
19	Llama 3.2 90B Instruct	Meta	90,1 %	25 septembre 2024	Auto-déclaré
20	DeepSeek VL2 Tiny	DeepSeek	88,9 %	13 décembre 2024	Auto-déclaré

Classement établi sur 26 modèles évalués, dont 26 de grands éditeurs. Score médian de l'ensemble : 93,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DocVQA indique qu’un modèle sait exploiter le contenu textuel et l’organisation visuelle d’un document pour produire une réponse courte pertinente. La métrique ANLS valorise les réponses proches de la vérité attendue, ce qui convient à des tâches d’extraction où de petites variations de forme peuvent exister. L’évaluation reste toutefois à interpréter avec prudence : le jeu de test est privé et ses réponses ne sont pas divulguées, mais les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. La comparaison dépend donc de la rigueur de chaque soumission. Le niveau médian élevé, 93 %, et l’écart limité avec le meilleur résultat, Qwen2.5 VL 72B Instruct à 96 %, suggèrent une forme de saturation du classement parmi les modèles évalués. Les limites portent aussi sur la portée du test, centré sur des documents en anglais et des réponses courtes, ainsi que sur l’impossibilité d’écarter totalement les effets de contamination à partir des seules informations publiées.

Sources des scores : llm-stats.

DocVQA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++