Vision & multimodal

ChartQA

ChartQA est un benchmark consacré à la compréhension de graphiques, publié en 2022 par Ahmed Masry et al. Il évalue la capacité des modèles à répondre à des questions ouvertes courtes portant sur des visualisations, avec des réponses textuelles ou numériques.

Son intérêt tient à la combinaison de raisonnement visuel, numérique et logique. ChartQA sert ainsi à mesurer si un modèle peut extraire des informations d’un graphique, interpréter leurs relations et produire une réponse concise, au-delà d’une simple reconnaissance visuelle.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Ahmed Masry et al.
Capacités mesurées	multimodal, raisonnement, vision
Modalité	Multimodal
Type de questions	questions ouvertes à réponse courte sur des graphiques, avec réponses textuelles ou numériques
Métrique d'évaluation	relaxed accuracy / exact match avec tolérance pour les réponses numériques
Accès	Public
Langues	anglais
Taille du jeu	environ 32,7K questions-réponses, dont 9,6K questions rédigées par des humains et 23,1K générées à partir de résumés de graphiques
Année de publication	2022
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude 3.5 Sonnet	Anthropic	90,8 %	22 octobre 2024	Auto-déclaré
2	Llama 4 Maverick	Meta	90,0 %	5 avril 2025	Auto-déclaré
3	Qwen2.5 VL 72B Instruct	Qwen	89,5 %	26 janvier 2025	Auto-déclaré
4	Nova Pro	Amazon	89,2 %	20 novembre 2024	Auto-déclaré
5	Llama 4 Scout	Meta	88,8 %	5 avril 2025	Auto-déclaré
6	Qwen2-VL-72B-Instruct	Qwen	88,3 %	29 août 2024	Auto-déclaré
7	Pixtral Large	Mistral AI	88,1 %	18 novembre 2024	Auto-déclaré
8	Mistral Small 3.2 24B Instruct	Mistral AI	87,4 %	20 juin 2025	Auto-déclaré
9	Qwen2.5 VL 7B Instruct	Qwen	87,3 %	26 janvier 2025	Auto-déclaré
10	Nova Lite	Amazon	86,8 %	20 novembre 2024	Auto-déclaré
11	DeepSeek VL2	DeepSeek	86,0 %	13 décembre 2024	Auto-déclaré
12	GPT-4o	OpenAI	85,7 %	27 mars 2025	Auto-déclaré
13	Llama 3.2 90B Instruct	Meta	85,5 %	25 septembre 2024	Auto-déclaré
14	Qwen2.5-Omni-7B	Qwen	85,3 %	27 mars 2025	Auto-déclaré
15	DeepSeek VL2 Small	DeepSeek	84,5 %	13 décembre 2024	Auto-déclaré
16	Llama 3.2 11B Instruct	Meta	83,4 %	25 septembre 2024	Auto-déclaré
17	Phi-3.5-vision-instruct	Microsoft	81,8 %	23 août 2024	Auto-déclaré
18	Pixtral-12B	Mistral AI	81,8 %	17 septembre 2024	Auto-déclaré
19	Phi-4-multimodal-instruct	Microsoft	81,4 %	1 février 2025	Auto-déclaré
20	DeepSeek VL2 Tiny	DeepSeek	81,0 %	13 décembre 2024	Auto-déclaré

Classement établi sur 24 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 85,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ChartQA indique une bonne aptitude à lire des graphiques et à résoudre des questions qui exigent souvent plusieurs opérations d’interprétation, de comparaison ou de calcul. La métrique combine exact match et relaxed accuracy, avec une tolérance pour les réponses numériques, ce qui limite les pénalisations liées aux variations mineures de format. Dans la base, le niveau médian élevé, à 86 %, et le meilleur score, 91 % pour Claude 3.5 Sonnet, suggèrent un benchmark déjà fortement maîtrisé par les modèles les plus performants.

Cette lecture doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité des conditions d’évaluation. La concentration des résultats peut aussi signaler une saturation partielle, rendant les écarts plus difficiles à interpréter. Comme ChartQA est public et en anglais, des risques de contamination des données d’entraînement existent. Enfin, sa portée reste centrée sur les graphiques et ne résume pas, à elle seule, les capacités générales de raisonnement multimodal.

Sources des scores : llm-stats.

ChartQA

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23