DocVQAtest
DocVQAtest est un benchmark de Visual Question Answering appliqué aux images de documents. Créé par Minesh Mathew, Dimosthenis Karatzas et C. V. Jawahar, il évalue des modèles capables d’extraire une réponse courte à partir d’une question en langage naturel et d’un document scanné.
DocVQAtest est un benchmark de Visual Question Answering appliqué aux images de documents. Créé par Minesh Mathew, Dimosthenis Karatzas et C. V. Jawahar, il évalue des modèles capables d’extraire une réponse courte à partir d’une question en langage naturel et d’un document scanné.
Le test met l’accent sur la lecture, la localisation d’informations et la compréhension de la structure visuelle de documents variés, comme des lettres, mémos, notes et rapports. Il sert à comparer la robustesse des modèles multimodaux sur des tâches proches de l’analyse documentaire réelle.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Minesh Mathew, Dimosthenis Karatzas et C. V. Jawahar |
| Capacités mesurées | multimodal, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes à réponse courte sur images de documents |
| Métrique d'évaluation | ANLS (Average Normalized Levenshtein Similarity) |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | environ 5 188 questions dans le split test ; environ 50 000 questions au total sur plus de 12 000 images de documents |
| Année de publication | 2020 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 235B A22B Instruct | Qwen | 97,1 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3 VL 32B Instruct | Qwen | 96,9 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen2-VL-72B-Instruct | Qwen | 96,5 % | 29 août 2024 | Auto-déclaré |
| 4 | Qwen3 VL 235B A22B Thinking | Qwen | 96,5 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 32B Thinking | Qwen | 96,1 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 8B Instruct | Qwen | 96,1 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 4B Instruct | Qwen | 95,3 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 8B Thinking | Qwen | 95,3 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 30B A3B Instruct | Qwen | 95,0 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 30B A3B Thinking | Qwen | 95,0 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 4B Thinking | Qwen | 94,2 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 96,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur DocVQAtest indique qu’un modèle parvient généralement à associer une question ouverte à la bonne zone d’un document, puis à produire une réponse textuelle proche de la référence selon ANLS. Le niveau médian très élevé observé dans la base, associé à un meilleur score seulement légèrement supérieur, suggère toutefois une forte saturation du classement. Les écarts entre modèles deviennent donc difficiles à interpréter, surtout lorsque les performances sont majoritairement auto-déclarées par les éditeurs plutôt que mesurées de manière indépendante. Le jeu de test privé, dont les réponses ne sont pas divulguées, renforce la rigueur de l’évaluation, mais ne suffit pas à éliminer tous les risques liés à la contamination ou aux différences de protocole de soumission. La portée reste aussi ciblée : documents en anglais, réponses courtes, images de documents scannés et corpus issu de types documentaires spécifiques. Le classement révèle surtout la maturité des grands modèles multimodaux sur l’extraction documentaire, plus qu’une compréhension universelle des documents.
Sources des scores : llm-stats.