CharXiv-D

CharXiv-D est le sous-ensemble descriptif de CharXiv, un benchmark consacré à la compréhension de graphiques scientifiques par des modèles multimodaux. Créé par Princeton Language and Intelligence (Princeton University), UW-Madison et University of Hong Kong, il s’appuie sur des figures…

CharXiv-D est le sous-ensemble descriptif de CharXiv, un benchmark consacré à la compréhension de graphiques scientifiques par des modèles multimodaux. Créé par Princeton Language and Intelligence (Princeton University), UW-Madison et University of Hong Kong, il s’appuie sur des figures issues d’articles arXiv et vérifiées par des experts humains.

Le test mesure la capacité à extraire des informations de base dans des graphiques réels et diversifiés. Les questions portent sur l’identification d’éléments, l’énumération, la reconnaissance de motifs et le comptage, ce qui en fait un indicateur ciblé pour évaluer la lecture visuelle de données scientifiques.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkPrinceton Language and Intelligence (Princeton University) + UW-Madison + University of Hong Kong
Capacités mesuréesExtraction d'informations de base sur les éléments de graphiques scientifiques réels et diversifiés par les modèles multimodaux.
ModalitéMultimodal
Type de questionsQuestions descriptives sur graphiques scientifiques (sous-ensemble descriptif de CharXiv)
Métrique d'évaluationExactitude (réponses notées par GPT-4o)
AccèsPublic
LicenceCC BY-SA 4.0 (données) ; Apache-2.0 (code)
Languesanglais
Taille du jeuCharXiv = 2323 graphiques issus d'arXiv ; sous-ensemble descriptif (~plusieurs questions descriptives par graphique)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance95,5 %24 juin 2026Auto-déclaré
2Seed 2.1 Turbobytedance94,6 %24 juin 2026Auto-déclaré
3Qwen3 VL 32B InstructQwen90,5 %22 septembre 2025Auto-déclaré
4Qwen3 VL 32B ThinkingQwen90,2 %22 septembre 2025Auto-déclaré
5GPT-5.4OpenAI90,0 %5 mars 2026Auto-déclaré
6GPT-4.1 miniOpenAI88,4 %14 avril 2025Auto-déclaré
7Command A+cohere88,0 %20 mai 2026Auto-déclaré
8GPT-4.1OpenAI87,9 %14 avril 2025Auto-déclaré
9Qwen3 VL 30B A3B ThinkingQwen86,9 %22 septembre 2025Auto-déclaré
10Qwen3 VL 8B ThinkingQwen85,9 %22 septembre 2025Auto-déclaré
11Qwen3 VL 30B A3B InstructQwen85,5 %22 septembre 2025Auto-déclaré
12GPT-4oOpenAI85,3 %27 mars 2025Auto-déclaré
13Qwen3 VL 4B ThinkingQwen83,9 %22 septembre 2025Auto-déclaré
14Qwen3 VL 8B InstructQwen83,0 %22 septembre 2025Auto-déclaré
15Qwen3 VL 4B InstructQwen76,2 %22 septembre 2025Auto-déclaré
16GPT-4.1 nanoOpenAI73,9 %14 avril 2025Auto-déclaré

Classement établi sur 16 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 87,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CharXiv-D indique qu’un modèle multimodal parvient généralement à repérer et restituer correctement des informations explicites dans des graphiques scientifiques, comme des éléments visuels, des tendances simples ou des quantités à compter. La métrique repose sur l’exactitude, avec des réponses notées par GPT-4o, ce qui apporte une procédure d’évaluation homogène mais ne remplace pas une validation humaine systématique des sorties de modèles. La fiabilité du classement doit aussi être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Avec une médiane à 87 % et un meilleur score à 96 % pour Seed 2.1 Pro, le benchmark suggère une forte performance des meilleurs systèmes sur cette tâche descriptive, avec un risque de saturation progressive. Sa portée reste spécialisée, limitée aux questions descriptives en anglais sur graphiques scientifiques, sans mesurer toute la compréhension d’un article ni le raisonnement scientifique complet. Comme pour tout jeu public, une contamination des données d’entraînement ne peut pas être exclue.


Sources des scores : llm-stats.