DocVQA
DocVQA est un benchmark de Visual Question Answering appliqué aux images de documents, publié en 2020 par M. Mathew, D. Karatzas et R. Manmatha. Il vise à évaluer la capacité d’un modèle à lire un document visuel, à en comprendre la structure et à retrouver l’information pertinente pour…
DocVQA est un benchmark de Visual Question Answering appliqué aux images de documents, publié en 2020 par M. Mathew, D. Karatzas et R. Manmatha. Il vise à évaluer la capacité d’un modèle à lire un document visuel, à en comprendre la structure et à retrouver l’information pertinente pour répondre à une question ouverte courte.
Son intérêt tient à la combinaison entre perception visuelle, compréhension de la mise en page et extraction d’information. DocVQA sert ainsi de repère pour mesurer les modèles capables de traiter des documents réels, au-delà de la simple reconnaissance de texte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | M. Mathew, D. Karatzas et R. Manmatha |
| Capacités mesurées | image vers texte, multimodal, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes à réponse courte sur images de documents |
| Métrique d'évaluation | ANLS |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | environ 50 000 questions sur plus de 12 000 images de documents |
| Année de publication | 2020 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen2.5 VL 72B Instruct | Qwen | 96,4 % | 26 janvier 2025 | Auto-déclaré |
| 2 | Qwen2.5 VL 7B Instruct | Qwen | 95,7 % | 26 janvier 2025 | Auto-déclaré |
| 3 | Claude 3.5 Sonnet | Anthropic | 95,2 % | 22 octobre 2024 | Auto-déclaré |
| 4 | Qwen2.5-Omni-7B | Qwen | 95,2 % | 27 mars 2025 | Auto-déclaré |
| 5 | Mistral Small 3.2 24B Instruct | Mistral AI | 94,9 % | 20 juin 2025 | Auto-déclaré |
| 6 | Qwen2.5 VL 32B Instruct | Qwen | 94,8 % | 28 février 2025 | Auto-déclaré |
| 7 | Llama 4 Maverick | Meta | 94,4 % | 5 avril 2025 | Auto-déclaré |
| 8 | Llama 4 Scout | Meta | 94,4 % | 5 avril 2025 | Auto-déclaré |
| 9 | Grok-2 | xAI | 93,6 % | 13 août 2024 | Auto-déclaré |
| 10 | Nova Pro | Amazon | 93,5 % | 20 novembre 2024 | Auto-déclaré |
| 11 | DeepSeek VL2 | DeepSeek | 93,3 % | 13 décembre 2024 | Auto-déclaré |
| 12 | Pixtral Large | Mistral AI | 93,3 % | 18 novembre 2024 | Auto-déclaré |
| 13 | Grok-2 mini | xAI | 93,2 % | 13 août 2024 | Auto-déclaré |
| 14 | Phi-4-multimodal-instruct | Microsoft | 93,2 % | 1 février 2025 | Auto-déclaré |
| 15 | GPT-4o | OpenAI | 92,8 % | 27 mars 2025 | Auto-déclaré |
| 16 | Nova Lite | Amazon | 92,4 % | 20 novembre 2024 | Auto-déclaré |
| 17 | DeepSeek VL2 Small | DeepSeek | 92,3 % | 13 décembre 2024 | Auto-déclaré |
| 18 | Pixtral-12B | Mistral AI | 90,7 % | 17 septembre 2024 | Auto-déclaré |
| 19 | Llama 3.2 90B Instruct | Meta | 90,1 % | 25 septembre 2024 | Auto-déclaré |
| 20 | DeepSeek VL2 Tiny | DeepSeek | 88,9 % | 13 décembre 2024 | Auto-déclaré |
Classement établi sur 26 modèles évalués, dont 26 de grands éditeurs. Score médian de l'ensemble : 93,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur DocVQA indique qu’un modèle sait exploiter le contenu textuel et l’organisation visuelle d’un document pour produire une réponse courte pertinente. La métrique ANLS valorise les réponses proches de la vérité attendue, ce qui convient à des tâches d’extraction où de petites variations de forme peuvent exister. L’évaluation reste toutefois à interpréter avec prudence : le jeu de test est privé et ses réponses ne sont pas divulguées, mais les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. La comparaison dépend donc de la rigueur de chaque soumission. Le niveau médian élevé, 93 %, et l’écart limité avec le meilleur résultat, Qwen2.5 VL 72B Instruct à 96 %, suggèrent une forme de saturation du classement parmi les modèles évalués. Les limites portent aussi sur la portée du test, centré sur des documents en anglais et des réponses courtes, ainsi que sur l’impossibilité d’écarter totalement les effets de contamination à partir des seules informations publiées.
Sources des scores : llm-stats.