Vision & multimodal

InfoVQA

InfoVQA est un benchmark d’évaluation consacré à la compréhension d’infographies. Créé par Minesh Mathew et al. et publié en 2021, il met les modèles face à des images combinant texte, graphiques, mise en page et visualisations de données.

Son objectif est de mesurer la capacité d’un système à répondre à des questions ouvertes et courtes en reliant plusieurs sources d’information visuelle et textuelle. Il sert ainsi à tester une forme de raisonnement multimodal proche de l’analyse de documents visuels structurés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Minesh Mathew et al.
Capacités mesurées	multimodal, vision
Modalité	Multimodal
Type de questions	questions ouvertes à réponse courte sur des images d'infographies
Métrique d'évaluation	ANLS
Accès	Public
Langues	anglais
Taille du jeu	environ 30 000 questions sur environ 5 000 images d'infographies
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen2.5 VL 32B Instruct	Qwen	83,4 %	28 février 2025	Auto-déclaré
2	Qwen2.5 VL 7B Instruct	Qwen	82,6 %	26 janvier 2025	Auto-déclaré
3	DeepSeek VL2	DeepSeek	78,1 %	13 décembre 2024	Auto-déclaré
4	DeepSeek VL2 Small	DeepSeek	75,8 %	13 décembre 2024	Auto-déclaré
5	Phi-4-multimodal-instruct	Microsoft	72,7 %	1 février 2025	Auto-déclaré
6	Gemma 3 27B	Google	70,6 %	12 mars 2025	Auto-déclaré
7	DeepSeek VL2 Tiny	DeepSeek	66,1 %	13 décembre 2024	Auto-déclaré
8	Gemma 3 12B	Google	64,9 %	12 mars 2025	Auto-déclaré
9	Gemma 3 4B	Google	50,0 %	12 mars 2025	Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 72,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur InfoVQA indique qu’un modèle parvient à extraire du texte, interpréter des éléments graphiques, comprendre l’organisation spatiale d’une infographie et effectuer de petits calculs lorsque la réponse l’exige. La métrique ANLS valorise les réponses courtes proches de la vérité attendue, ce qui convient à ce format, mais ne capture pas toujours la qualité complète du raisonnement. Dans la base considérée, 9 modèles sont évalués, avec un score médian de 73 %, tandis que Qwen2.5 VL 32B Instruct atteint 83 %, ce qui suggère un écart encore visible entre les systèmes. La lecture du classement doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le benchmark reste aussi limité à l’anglais et à un type précis de documents. Comme pour tout jeu public, une saturation progressive ou une contamination par les données d’entraînement doivent être surveillées.

Sources des scores : llm-stats.

InfoVQA

Carte d'identité

Classement des modèles (top 9)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23