TextVQA

TextVQA est un benchmark de vision-language question answering consacré aux situations où la réponse dépend de texte visible dans une image. Créé par Amanpreet Singh et al. chez Facebook AI Research et Georgia Tech, il cible un angle longtemps peu couvert par les jeux VQA généralistes :…

TextVQA est un benchmark de vision-language question answering consacré aux situations où la réponse dépend de texte visible dans une image. Créé par Amanpreet Singh et al. chez Facebook AI Research et Georgia Tech, il cible un angle longtemps peu couvert par les jeux VQA généralistes : la lecture et l’interprétation d’indices textuels dans des scènes visuelles.

Le benchmark mesure donc une compétence multimodale spécifique, à la frontière de l’OCR, de la compréhension d’image et du raisonnement. Il sert à évaluer la capacité des modèles à produire de courtes réponses ouvertes en anglais à partir d’images contenant du texte pertinent.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAmanpreet Singh et al. (Facebook AI Research, Georgia Tech)
Capacités mesuréesimage vers texte, multimodal, vision
ModalitéMultimodal
Type de questionsquestions ouvertes à réponse courte sur des images
Métrique d'évaluationVQA accuracy
AccèsJeu de test privé (réponses non divulguées)
Languesanglais
Taille du jeu45 336 questions sur 28 408 images
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 15)

#ModèleÉditeurScoreSortieFiabilité
1Qwen2-VL-72B-InstructQwen85,5 %29 août 2024Auto-déclaré
2Qwen2.5 VL 7B InstructQwen84,9 %26 janvier 2025Auto-déclaré
3Qwen2.5-Omni-7BQwen84,4 %27 mars 2025Auto-déclaré
4DeepSeek VL2DeepSeek84,2 %13 décembre 2024Auto-déclaré
5DeepSeek VL2 SmallDeepSeek83,4 %13 décembre 2024Auto-déclaré
6Nova ProAmazon81,5 %20 novembre 2024Auto-déclaré
7DeepSeek VL2 TinyDeepSeek80,7 %13 décembre 2024Auto-déclaré
8Nova LiteAmazon80,2 %20 novembre 2024Auto-déclaré
9Grok-1.5VxAI78,1 %12 avril 2024Auto-déclaré
10Phi-4-multimodal-instructMicrosoft75,6 %1 février 2025Auto-déclaré
11Llama 3.2 90B InstructMeta73,5 %25 septembre 2024Auto-déclaré
12Phi-3.5-vision-instructMicrosoft72,0 %23 août 2024Auto-déclaré
13Gemma 3 12BGoogle67,7 %12 mars 2025Auto-déclaré
14Gemma 3 27BGoogle65,1 %12 mars 2025Auto-déclaré
15Gemma 3 4BGoogle57,8 %12 mars 2025Auto-déclaré

Classement établi sur 15 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TextVQA indique qu’un modèle parvient généralement à repérer le texte utile dans l’image, à l’associer au contexte visuel et à formuler une réponse courte correcte. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 80 % sur 15 modèles évalués et un meilleur score de 86 % pour Qwen2-VL-72B-Instruct. Cet écart relativement resserré suggère que le benchmark distingue surtout les modèles les plus performants sur la lecture visuelle fine, mais qu’une forme de saturation peut apparaître en haut du classement.

  • Rigueur : l’évaluation repose sur VQA accuracy et le jeu de test privé garde les réponses non divulguées, ce qui renforce le contrôle du benchmark. En revanche, les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte sans reproduction indépendante.
  • Limites : la portée reste centrée sur l’anglais, les réponses courtes et les images nécessitant du texte. Une contamination des données ne peut pas être totalement écartée, même si les réponses de test ne sont pas publiques.

Sources des scores : llm-stats.