CharXiv-D
CharXiv-D est le sous-ensemble descriptif de CharXiv, un benchmark consacré à la compréhension de graphiques scientifiques par des modèles multimodaux. Créé par Princeton Language and Intelligence (Princeton University), UW-Madison et University of Hong Kong, il s’appuie sur des figures…
CharXiv-D est le sous-ensemble descriptif de CharXiv, un benchmark consacré à la compréhension de graphiques scientifiques par des modèles multimodaux. Créé par Princeton Language and Intelligence (Princeton University), UW-Madison et University of Hong Kong, il s’appuie sur des figures issues d’articles arXiv et vérifiées par des experts humains.
Le test mesure la capacité à extraire des informations de base dans des graphiques réels et diversifiés. Les questions portent sur l’identification d’éléments, l’énumération, la reconnaissance de motifs et le comptage, ce qui en fait un indicateur ciblé pour évaluer la lecture visuelle de données scientifiques.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Princeton Language and Intelligence (Princeton University) + UW-Madison + University of Hong Kong |
| Capacités mesurées | Extraction d'informations de base sur les éléments de graphiques scientifiques réels et diversifiés par les modèles multimodaux. |
| Modalité | Multimodal |
| Type de questions | Questions descriptives sur graphiques scientifiques (sous-ensemble descriptif de CharXiv) |
| Métrique d'évaluation | Exactitude (réponses notées par GPT-4o) |
| Accès | Public |
| Licence | CC BY-SA 4.0 (données) ; Apache-2.0 (code) |
| Langues | anglais |
| Taille du jeu | CharXiv = 2323 graphiques issus d'arXiv ; sous-ensemble descriptif (~plusieurs questions descriptives par graphique) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 95,5 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 94,6 % | 24 juin 2026 | Auto-déclaré |
| 3 | Qwen3 VL 32B Instruct | Qwen | 90,5 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 32B Thinking | Qwen | 90,2 % | 22 septembre 2025 | Auto-déclaré |
| 5 | GPT-5.4 | OpenAI | 90,0 % | 5 mars 2026 | Auto-déclaré |
| 6 | GPT-4.1 mini | OpenAI | 88,4 % | 14 avril 2025 | Auto-déclaré |
| 7 | Command A+ | cohere | 88,0 % | 20 mai 2026 | Auto-déclaré |
| 8 | GPT-4.1 | OpenAI | 87,9 % | 14 avril 2025 | Auto-déclaré |
| 9 | Qwen3 VL 30B A3B Thinking | Qwen | 86,9 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 8B Thinking | Qwen | 85,9 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 30B A3B Instruct | Qwen | 85,5 % | 22 septembre 2025 | Auto-déclaré |
| 12 | GPT-4o | OpenAI | 85,3 % | 27 mars 2025 | Auto-déclaré |
| 13 | Qwen3 VL 4B Thinking | Qwen | 83,9 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 8B Instruct | Qwen | 83,0 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 4B Instruct | Qwen | 76,2 % | 22 septembre 2025 | Auto-déclaré |
| 16 | GPT-4.1 nano | OpenAI | 73,9 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 16 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 87,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CharXiv-D indique qu’un modèle multimodal parvient généralement à repérer et restituer correctement des informations explicites dans des graphiques scientifiques, comme des éléments visuels, des tendances simples ou des quantités à compter. La métrique repose sur l’exactitude, avec des réponses notées par GPT-4o, ce qui apporte une procédure d’évaluation homogène mais ne remplace pas une validation humaine systématique des sorties de modèles. La fiabilité du classement doit aussi être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Avec une médiane à 87 % et un meilleur score à 96 % pour Seed 2.1 Pro, le benchmark suggère une forte performance des meilleurs systèmes sur cette tâche descriptive, avec un risque de saturation progressive. Sa portée reste spécialisée, limitée aux questions descriptives en anglais sur graphiques scientifiques, sans mesurer toute la compréhension d’un article ni le raisonnement scientifique complet. Comme pour tout jeu public, une contamination des données d’entraînement ne peut pas être exclue.
Sources des scores : llm-stats.