Vision & multimodal

TextVQA

TextVQA est un benchmark de vision-language question answering consacré aux situations où la réponse dépend de texte visible dans une image. Créé par Amanpreet Singh et al. chez Facebook AI Research et Georgia Tech, il cible un angle longtemps peu couvert par les jeux VQA généralistes :…

Le benchmark mesure donc une compétence multimodale spécifique, à la frontière de l’OCR, de la compréhension d’image et du raisonnement. Il sert à évaluer la capacité des modèles à produire de courtes réponses ouvertes en anglais à partir d’images contenant du texte pertinent.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Amanpreet Singh et al. (Facebook AI Research, Georgia Tech)
Capacités mesurées	image vers texte, multimodal, vision
Modalité	Multimodal
Type de questions	questions ouvertes à réponse courte sur des images
Métrique d'évaluation	VQA accuracy
Accès	Jeu de test privé (réponses non divulguées)
Langues	anglais
Taille du jeu	45 336 questions sur 28 408 images
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 15)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2-VL-72B-Instruct	Qwen	85,5 %	29 août 2024	Auto-déclaré
2	Qwen2.5 VL 7B Instruct	Qwen	84,9 %	26 janvier 2025	Auto-déclaré
3	Qwen2.5-Omni-7B	Qwen	84,4 %	27 mars 2025	Auto-déclaré
4	DeepSeek VL2	DeepSeek	84,2 %	13 décembre 2024	Auto-déclaré
5	DeepSeek VL2 Small	DeepSeek	83,4 %	13 décembre 2024	Auto-déclaré
6	Nova Pro	Amazon	81,5 %	20 novembre 2024	Auto-déclaré
7	DeepSeek VL2 Tiny	DeepSeek	80,7 %	13 décembre 2024	Auto-déclaré
8	Nova Lite	Amazon	80,2 %	20 novembre 2024	Auto-déclaré
9	Grok-1.5V	xAI	78,1 %	12 avril 2024	Auto-déclaré
10	Phi-4-multimodal-instruct	Microsoft	75,6 %	1 février 2025	Auto-déclaré
11	Llama 3.2 90B Instruct	Meta	73,5 %	25 septembre 2024	Auto-déclaré
12	Phi-3.5-vision-instruct	Microsoft	72,0 %	23 août 2024	Auto-déclaré
13	Gemma 3 12B	Google	67,7 %	12 mars 2025	Auto-déclaré
14	Gemma 3 27B	Google	65,1 %	12 mars 2025	Auto-déclaré
15	Gemma 3 4B	Google	57,8 %	12 mars 2025	Auto-déclaré

Classement établi sur 15 modèles évalués, dont 15 de grands éditeurs. Score médian de l'ensemble : 80,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TextVQA indique qu’un modèle parvient généralement à repérer le texte utile dans l’image, à l’associer au contexte visuel et à formuler une réponse courte correcte. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 80 % sur 15 modèles évalués et un meilleur score de 86 % pour Qwen2-VL-72B-Instruct. Cet écart relativement resserré suggère que le benchmark distingue surtout les modèles les plus performants sur la lecture visuelle fine, mais qu’une forme de saturation peut apparaître en haut du classement.

Rigueur : l’évaluation repose sur VQA accuracy et le jeu de test privé garde les réponses non divulguées, ce qui renforce le contrôle du benchmark. En revanche, les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte sans reproduction indépendante.
Limites : la portée reste centrée sur l’anglais, les réponses courtes et les images nécessitant du texte. Une contamination des données ne peut pas être totalement écartée, même si les réponses de test ne sont pas publiques.

Sources des scores : llm-stats.

TextVQA

Carte d'identité

Classement des modèles (top 15)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench