InfoVQA

InfoVQA est un benchmark d’évaluation consacré à la compréhension d’infographies. Créé par Minesh Mathew et al. et publié en 2021, il met les modèles face à des images combinant texte, graphiques, mise en page et visualisations de données.

InfoVQA est un benchmark d’évaluation consacré à la compréhension d’infographies. Créé par Minesh Mathew et al. et publié en 2021, il met les modèles face à des images combinant texte, graphiques, mise en page et visualisations de données.

Son objectif est de mesurer la capacité d’un système à répondre à des questions ouvertes et courtes en reliant plusieurs sources d’information visuelle et textuelle. Il sert ainsi à tester une forme de raisonnement multimodal proche de l’analyse de documents visuels structurés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMinesh Mathew et al.
Capacités mesuréesmultimodal, vision
ModalitéMultimodal
Type de questionsquestions ouvertes à réponse courte sur des images d'infographies
Métrique d'évaluationANLS
AccèsPublic
Languesanglais
Taille du jeuenviron 30 000 questions sur environ 5 000 images d'infographies
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 9)

#ModèleÉditeurScoreSortieFiabilité
1Qwen2.5 VL 32B InstructQwen83,4 %28 février 2025Auto-déclaré
2Qwen2.5 VL 7B InstructQwen82,6 %26 janvier 2025Auto-déclaré
3DeepSeek VL2DeepSeek78,1 %13 décembre 2024Auto-déclaré
4DeepSeek VL2 SmallDeepSeek75,8 %13 décembre 2024Auto-déclaré
5Phi-4-multimodal-instructMicrosoft72,7 %1 février 2025Auto-déclaré
6Gemma 3 27BGoogle70,6 %12 mars 2025Auto-déclaré
7DeepSeek VL2 TinyDeepSeek66,1 %13 décembre 2024Auto-déclaré
8Gemma 3 12BGoogle64,9 %12 mars 2025Auto-déclaré
9Gemma 3 4BGoogle50,0 %12 mars 2025Auto-déclaré

Classement établi sur 9 modèles évalués, dont 9 de grands éditeurs. Score médian de l'ensemble : 72,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur InfoVQA indique qu’un modèle parvient à extraire du texte, interpréter des éléments graphiques, comprendre l’organisation spatiale d’une infographie et effectuer de petits calculs lorsque la réponse l’exige. La métrique ANLS valorise les réponses courtes proches de la vérité attendue, ce qui convient à ce format, mais ne capture pas toujours la qualité complète du raisonnement. Dans la base considérée, 9 modèles sont évalués, avec un score médian de 73 %, tandis que Qwen2.5 VL 32B Instruct atteint 83 %, ce qui suggère un écart encore visible entre les systèmes. La lecture du classement doit toutefois rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, donc moins homogènes qu’une évaluation entièrement reproduite dans un cadre unique. Le benchmark reste aussi limité à l’anglais et à un type précis de documents. Comme pour tout jeu public, une saturation progressive ou une contamination par les données d’entraînement doivent être surveillées.


Sources des scores : llm-stats.