InfoVQAtest
InfoVQAtest est un benchmark de question-réponse visuelle consacré aux infographies. Créé par Minesh Mathew et al. au sein du CVIT, IIIT Hyderabad et du CVC-UAB, il évalue la capacité des modèles à comprendre des documents où texte, mise en page, graphiques et visualisations de données…
InfoVQAtest est un benchmark de question-réponse visuelle consacré aux infographies. Créé par Minesh Mathew et al. au sein du CVIT, IIIT Hyderabad et du CVC-UAB, il évalue la capacité des modèles à comprendre des documents où texte, mise en page, graphiques et visualisations de données sont étroitement liés.
Le test met l’accent sur des questions ouvertes à réponse courte, qui exigent d’extraire des informations, d’interpréter des diagrammes et de réaliser des raisonnements élémentaires. Il sert ainsi à mesurer la robustesse des modèles multimodaux face à des documents visuellement denses.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Minesh Mathew et al. (CVIT, IIIT Hyderabad; CVC-UAB) |
| Capacités mesurées | multimodal, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes à réponse courte sur images d’infographies |
| Métrique d'évaluation | ANLS (Average Normalized Levenshtein Similarity) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 3 288 questions de test sur 579 infographies; 30 035 questions-réponses au total |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 12)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Kimi K2.5 | Moonshot AI | 92,6 % | 27 janvier 2026 | Auto-déclaré |
| 2 | Qwen3 VL 235B A22B Thinking | Qwen | 89,5 % | 22 septembre 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 89,2 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 32B Thinking | Qwen | 89,2 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 32B Instruct | Qwen | 87,0 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 30B A3B Thinking | Qwen | 86,0 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 8B Thinking | Qwen | 86,0 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen2-VL-72B-Instruct | Qwen | 84,5 % | 29 août 2024 | Auto-déclaré |
| 9 | Qwen3 VL 8B Instruct | Qwen | 83,1 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 4B Thinking | Qwen | 83,0 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 30B A3B Instruct | Qwen | 82,0 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 4B Instruct | Qwen | 80,3 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 12 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 86,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur InfoVQAtest indique qu’un modèle sait repérer une information dans une infographie, relier des indices textuels et graphiques, interpréter la structure du document et produire une réponse courte proche de la référence selon ANLS. Cette métrique récompense la similarité textuelle normalisée, ce qui convient aux réponses brèves, mais ne couvre pas toute la profondeur d’un raisonnement visuel. L’évaluation dispose d’un cadre public et comparable, toutefois les scores de la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la lecture stricte du classement en l’absence de vérification uniforme. Les principales limites tiennent à la portée du jeu, centré sur l’anglais et les infographies, ainsi qu’au risque de contamination lié à l’accès public. Avec un score médian de 86% et un meilleur résultat à 93% pour Kimi K2.5 (Moonshot AI), le classement suggère un niveau déjà élevé parmi les modèles évalués, avec une possible saturation progressive sur ce test.
Sources des scores : llm-stats.