TextVQA
TextVQA est un benchmark de vision-language question answering consacré aux situations où la réponse dépend de texte visible dans une image. Créé par Amanpreet Singh et al. chez Facebook AI Research et Georgia Tech, il cible un angle longtemps peu couvert par les jeux VQA généralistes :…
TextVQA est un benchmark de vision-language question answering consacré aux situations où la réponse dépend de texte visible dans une image. Créé par Amanpreet Singh et al. chez Facebook AI Research et Georgia Tech, il cible un angle longtemps peu couvert par les jeux VQA généralistes : la lecture et l’interprétation d’indices textuels dans des scènes visuelles.
Le benchmark mesure donc une compétence multimodale spécifique, à la frontière de l’OCR, de la compréhension d’image et du raisonnement. Il sert à évaluer la capacité des modèles à produire de courtes réponses ouvertes en anglais à partir d’images contenant du texte pertinent.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Amanpreet Singh et al. (Facebook AI Research, Georgia Tech) |
| Capacités mesurées | image vers texte, multimodal, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes à réponse courte sur des images |
| Métrique d'évaluation | VQA accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Langues | anglais |
| Taille du jeu | 45 336 questions sur 28 408 images |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 15)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen2-VL-72B-Instruct | Qwen | 85,5 % | 29 août 2024 | Auto-déclaré |
| 2 | Qwen2.5 VL 7B Instruct | Qwen | 84,9 % | 26 janvier 2025 | Auto-déclaré |
| 3 | Qwen2.5-Omni-7B | Qwen | 84,4 % | 27 mars 2025 | Auto-déclaré |
| 4 | DeepSeek VL2 | DeepSeek | 84,2 % | 13 décembre 2024 | Auto-déclaré |
| 5 | DeepSeek VL2 Small | DeepSeek | 83,4 % | 13 décembre 2024 | Auto-déclaré |
| 6 | Nova Pro | Amazon | 81,5 % | 20 novembre 2024 | Auto-déclaré |
| 7 | DeepSeek VL2 Tiny | DeepSeek | 80,7 % | 13 décembre 2024 | Auto-déclaré |
| 8 | Nova Lite | Amazon | 80,2 % | 20 novembre 2024 | Auto-déclaré |
| 9 | Grok-1.5V | xAI | 78,1 % | 12 avril 2024 | Auto-déclaré |
| 10 | Phi-4-multimodal-instruct | Microsoft | 75,6 % | 1 février 2025 | Auto-déclaré |
| 11 | Llama 3.2 90B Instruct | Meta | 73,5 % | 25 septembre 2024 | Auto-déclaré |
| 12 | Phi-3.5-vision-instruct | Microsoft | 72,0 % | 23 août 2024 | Auto-déclaré |
| 13 | Gemma 3 12B | 67,7 % | 12 mars 2025 | Auto-déclaré | |
| 14 | Gemma 3 27B | 65,1 % | 12 mars 2025 | Auto-déclaré | |
| 15 | Gemma 3 4B | 57,8 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 15 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TextVQA indique qu’un modèle parvient généralement à repérer le texte utile dans l’image, à l’associer au contexte visuel et à formuler une réponse courte correcte. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 80 % sur 15 modèles évalués et un meilleur score de 86 % pour Qwen2-VL-72B-Instruct. Cet écart relativement resserré suggère que le benchmark distingue surtout les modèles les plus performants sur la lecture visuelle fine, mais qu’une forme de saturation peut apparaître en haut du classement.
- Rigueur : l’évaluation repose sur VQA accuracy et le jeu de test privé garde les réponses non divulguées, ce qui renforce le contrôle du benchmark. En revanche, les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte sans reproduction indépendante.
- Limites : la portée reste centrée sur l’anglais, les réponses courtes et les images nécessitant du texte. Une contamination des données ne peut pas être totalement écartée, même si les réponses de test ne sont pas publiques.
Sources des scores : llm-stats.