DocVQA

DocVQA est un benchmark de Visual Question Answering appliqué aux images de documents, publié en 2020 par M. Mathew, D. Karatzas et R. Manmatha. Il vise à évaluer la capacité d’un modèle à lire un document visuel, à en comprendre la structure et à retrouver l’information pertinente pour…

DocVQA est un benchmark de Visual Question Answering appliqué aux images de documents, publié en 2020 par M. Mathew, D. Karatzas et R. Manmatha. Il vise à évaluer la capacité d’un modèle à lire un document visuel, à en comprendre la structure et à retrouver l’information pertinente pour répondre à une question ouverte courte.

Son intérêt tient à la combinaison entre perception visuelle, compréhension de la mise en page et extraction d’information. DocVQA sert ainsi de repère pour mesurer les modèles capables de traiter des documents réels, au-delà de la simple reconnaissance de texte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkM. Mathew, D. Karatzas et R. Manmatha
Capacités mesuréesimage vers texte, multimodal, vision
ModalitéMultimodal
Type de questionsquestions ouvertes à réponse courte sur images de documents
Métrique d'évaluationANLS
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Taille du jeuenviron 50 000 questions sur plus de 12 000 images de documents
Année de publication2020
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen2.5 VL 72B InstructQwen96,4 %26 janvier 2025Auto-déclaré
2Qwen2.5 VL 7B InstructQwen95,7 %26 janvier 2025Auto-déclaré
3Claude 3.5 SonnetAnthropic95,2 %22 octobre 2024Auto-déclaré
4Qwen2.5-Omni-7BQwen95,2 %27 mars 2025Auto-déclaré
5Mistral Small 3.2 24B InstructMistral AI94,9 %20 juin 2025Auto-déclaré
6Qwen2.5 VL 32B InstructQwen94,8 %28 février 2025Auto-déclaré
7Llama 4 MaverickMeta94,4 %5 avril 2025Auto-déclaré
8Llama 4 ScoutMeta94,4 %5 avril 2025Auto-déclaré
9Grok-2xAI93,6 %13 août 2024Auto-déclaré
10Nova ProAmazon93,5 %20 novembre 2024Auto-déclaré
11DeepSeek VL2DeepSeek93,3 %13 décembre 2024Auto-déclaré
12Pixtral LargeMistral AI93,3 %18 novembre 2024Auto-déclaré
13Grok-2 minixAI93,2 %13 août 2024Auto-déclaré
14Phi-4-multimodal-instructMicrosoft93,2 %1 février 2025Auto-déclaré
15GPT-4oOpenAI92,8 %27 mars 2025Auto-déclaré
16Nova LiteAmazon92,4 %20 novembre 2024Auto-déclaré
17DeepSeek VL2 SmallDeepSeek92,3 %13 décembre 2024Auto-déclaré
18Pixtral-12BMistral AI90,7 %17 septembre 2024Auto-déclaré
19Llama 3.2 90B InstructMeta90,1 %25 septembre 2024Auto-déclaré
20DeepSeek VL2 TinyDeepSeek88,9 %13 décembre 2024Auto-déclaré

Classement établi sur 26 modèles évalués, dont 26 de grands éditeurs. Score médian de l'ensemble : 93,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DocVQA indique qu’un modèle sait exploiter le contenu textuel et l’organisation visuelle d’un document pour produire une réponse courte pertinente. La métrique ANLS valorise les réponses proches de la vérité attendue, ce qui convient à des tâches d’extraction où de petites variations de forme peuvent exister. L’évaluation reste toutefois à interpréter avec prudence : le jeu de test est privé et ses réponses ne sont pas divulguées, mais les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. La comparaison dépend donc de la rigueur de chaque soumission. Le niveau médian élevé, 93 %, et l’écart limité avec le meilleur résultat, Qwen2.5 VL 72B Instruct à 96 %, suggèrent une forme de saturation du classement parmi les modèles évalués. Les limites portent aussi sur la portée du test, centré sur des documents en anglais et des réponses courtes, ainsi que sur l’impossibilité d’écarter totalement les effets de contamination à partir des seules informations publiées.


Sources des scores : llm-stats.