ChartQA
ChartQA est un benchmark consacré à la compréhension de graphiques, publié en 2022 par Ahmed Masry et al. Il évalue la capacité des modèles à répondre à des questions ouvertes courtes portant sur des visualisations, avec des réponses textuelles ou numériques.
ChartQA est un benchmark consacré à la compréhension de graphiques, publié en 2022 par Ahmed Masry et al. Il évalue la capacité des modèles à répondre à des questions ouvertes courtes portant sur des visualisations, avec des réponses textuelles ou numériques.
Son intérêt tient à la combinaison de raisonnement visuel, numérique et logique. ChartQA sert ainsi à mesurer si un modèle peut extraire des informations d’un graphique, interpréter leurs relations et produire une réponse concise, au-delà d’une simple reconnaissance visuelle.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Ahmed Masry et al. |
| Capacités mesurées | multimodal, raisonnement, vision |
| Modalité | Multimodal |
| Type de questions | questions ouvertes à réponse courte sur des graphiques, avec réponses textuelles ou numériques |
| Métrique d'évaluation | relaxed accuracy / exact match avec tolérance pour les réponses numériques |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 32,7K questions-réponses, dont 9,6K questions rédigées par des humains et 23,1K générées à partir de résumés de graphiques |
| Année de publication | 2022 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude 3.5 Sonnet | Anthropic | 90,8 % | 22 octobre 2024 | Auto-déclaré |
| 2 | Llama 4 Maverick | Meta | 90,0 % | 5 avril 2025 | Auto-déclaré |
| 3 | Qwen2.5 VL 72B Instruct | Qwen | 89,5 % | 26 janvier 2025 | Auto-déclaré |
| 4 | Nova Pro | Amazon | 89,2 % | 20 novembre 2024 | Auto-déclaré |
| 5 | Llama 4 Scout | Meta | 88,8 % | 5 avril 2025 | Auto-déclaré |
| 6 | Qwen2-VL-72B-Instruct | Qwen | 88,3 % | 29 août 2024 | Auto-déclaré |
| 7 | Pixtral Large | Mistral AI | 88,1 % | 18 novembre 2024 | Auto-déclaré |
| 8 | Mistral Small 3.2 24B Instruct | Mistral AI | 87,4 % | 20 juin 2025 | Auto-déclaré |
| 9 | Qwen2.5 VL 7B Instruct | Qwen | 87,3 % | 26 janvier 2025 | Auto-déclaré |
| 10 | Nova Lite | Amazon | 86,8 % | 20 novembre 2024 | Auto-déclaré |
| 11 | DeepSeek VL2 | DeepSeek | 86,0 % | 13 décembre 2024 | Auto-déclaré |
| 12 | GPT-4o | OpenAI | 85,7 % | 27 mars 2025 | Auto-déclaré |
| 13 | Llama 3.2 90B Instruct | Meta | 85,5 % | 25 septembre 2024 | Auto-déclaré |
| 14 | Qwen2.5-Omni-7B | Qwen | 85,3 % | 27 mars 2025 | Auto-déclaré |
| 15 | DeepSeek VL2 Small | DeepSeek | 84,5 % | 13 décembre 2024 | Auto-déclaré |
| 16 | Llama 3.2 11B Instruct | Meta | 83,4 % | 25 septembre 2024 | Auto-déclaré |
| 17 | Phi-3.5-vision-instruct | Microsoft | 81,8 % | 23 août 2024 | Auto-déclaré |
| 18 | Pixtral-12B | Mistral AI | 81,8 % | 17 septembre 2024 | Auto-déclaré |
| 19 | Phi-4-multimodal-instruct | Microsoft | 81,4 % | 1 février 2025 | Auto-déclaré |
| 20 | DeepSeek VL2 Tiny | DeepSeek | 81,0 % | 13 décembre 2024 | Auto-déclaré |
Classement établi sur 24 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 85,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ChartQA indique une bonne aptitude à lire des graphiques et à résoudre des questions qui exigent souvent plusieurs opérations d’interprétation, de comparaison ou de calcul. La métrique combine exact match et relaxed accuracy, avec une tolérance pour les réponses numériques, ce qui limite les pénalisations liées aux variations mineures de format. Dans la base, le niveau médian élevé, à 86 %, et le meilleur score, 91 % pour Claude 3.5 Sonnet, suggèrent un benchmark déjà fortement maîtrisé par les modèles les plus performants.
Cette lecture doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité des conditions d’évaluation. La concentration des résultats peut aussi signaler une saturation partielle, rendant les écarts plus difficiles à interpréter. Comme ChartQA est public et en anglais, des risques de contamination des données d’entraînement existent. Enfin, sa portée reste centrée sur les graphiques et ne résume pas, à elle seule, les capacités générales de raisonnement multimodal.
Sources des scores : llm-stats.