ChartQA

ChartQA est un benchmark consacré à la compréhension de graphiques, publié en 2022 par Ahmed Masry et al. Il évalue la capacité des modèles à répondre à des questions ouvertes courtes portant sur des visualisations, avec des réponses textuelles ou numériques.

ChartQA est un benchmark consacré à la compréhension de graphiques, publié en 2022 par Ahmed Masry et al. Il évalue la capacité des modèles à répondre à des questions ouvertes courtes portant sur des visualisations, avec des réponses textuelles ou numériques.

Son intérêt tient à la combinaison de raisonnement visuel, numérique et logique. ChartQA sert ainsi à mesurer si un modèle peut extraire des informations d’un graphique, interpréter leurs relations et produire une réponse concise, au-delà d’une simple reconnaissance visuelle.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAhmed Masry et al.
Capacités mesuréesmultimodal, raisonnement, vision
ModalitéMultimodal
Type de questionsquestions ouvertes à réponse courte sur des graphiques, avec réponses textuelles ou numériques
Métrique d'évaluationrelaxed accuracy / exact match avec tolérance pour les réponses numériques
AccèsPublic
Languesanglais
Taille du jeuenviron 32,7K questions-réponses, dont 9,6K questions rédigées par des humains et 23,1K générées à partir de résumés de graphiques
Année de publication2022
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude 3.5 SonnetAnthropic90,8 %22 octobre 2024Auto-déclaré
2Llama 4 MaverickMeta90,0 %5 avril 2025Auto-déclaré
3Qwen2.5 VL 72B InstructQwen89,5 %26 janvier 2025Auto-déclaré
4Nova ProAmazon89,2 %20 novembre 2024Auto-déclaré
5Llama 4 ScoutMeta88,8 %5 avril 2025Auto-déclaré
6Qwen2-VL-72B-InstructQwen88,3 %29 août 2024Auto-déclaré
7Pixtral LargeMistral AI88,1 %18 novembre 2024Auto-déclaré
8Mistral Small 3.2 24B InstructMistral AI87,4 %20 juin 2025Auto-déclaré
9Qwen2.5 VL 7B InstructQwen87,3 %26 janvier 2025Auto-déclaré
10Nova LiteAmazon86,8 %20 novembre 2024Auto-déclaré
11DeepSeek VL2DeepSeek86,0 %13 décembre 2024Auto-déclaré
12GPT-4oOpenAI85,7 %27 mars 2025Auto-déclaré
13Llama 3.2 90B InstructMeta85,5 %25 septembre 2024Auto-déclaré
14Qwen2.5-Omni-7BQwen85,3 %27 mars 2025Auto-déclaré
15DeepSeek VL2 SmallDeepSeek84,5 %13 décembre 2024Auto-déclaré
16Llama 3.2 11B InstructMeta83,4 %25 septembre 2024Auto-déclaré
17Phi-3.5-vision-instructMicrosoft81,8 %23 août 2024Auto-déclaré
18Pixtral-12BMistral AI81,8 %17 septembre 2024Auto-déclaré
19Phi-4-multimodal-instructMicrosoft81,4 %1 février 2025Auto-déclaré
20DeepSeek VL2 TinyDeepSeek81,0 %13 décembre 2024Auto-déclaré

Classement établi sur 24 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 85,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ChartQA indique une bonne aptitude à lire des graphiques et à résoudre des questions qui exigent souvent plusieurs opérations d’interprétation, de comparaison ou de calcul. La métrique combine exact match et relaxed accuracy, avec une tolérance pour les réponses numériques, ce qui limite les pénalisations liées aux variations mineures de format. Dans la base, le niveau médian élevé, à 86 %, et le meilleur score, 91 % pour Claude 3.5 Sonnet, suggèrent un benchmark déjà fortement maîtrisé par les modèles les plus performants.

Cette lecture doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité des conditions d’évaluation. La concentration des résultats peut aussi signaler une saturation partielle, rendant les écarts plus difficiles à interpréter. Comme ChartQA est public et en anglais, des risques de contamination des données d’entraînement existent. Enfin, sa portée reste centrée sur les graphiques et ne résume pas, à elle seule, les capacités générales de raisonnement multimodal.


Sources des scores : llm-stats.