Vision & multimodal

CharXiv-D

CharXiv-D est le sous-ensemble descriptif de CharXiv, un benchmark consacré à la compréhension de graphiques scientifiques par des modèles multimodaux. Créé par Princeton Language and Intelligence (Princeton University), UW-Madison et University of Hong Kong, il s’appuie sur des figures…

Le test mesure la capacité à extraire des informations de base dans des graphiques réels et diversifiés. Les questions portent sur l’identification d’éléments, l’énumération, la reconnaissance de motifs et le comptage, ce qui en fait un indicateur ciblé pour évaluer la lecture visuelle de données scientifiques.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Princeton Language and Intelligence (Princeton University) + UW-Madison + University of Hong Kong
Capacités mesurées	Extraction d'informations de base sur les éléments de graphiques scientifiques réels et diversifiés par les modèles multimodaux.
Modalité	Multimodal
Type de questions	Questions descriptives sur graphiques scientifiques (sous-ensemble descriptif de CharXiv)
Métrique d'évaluation	Exactitude (réponses notées par GPT-4o)
Accès	Public
Licence	CC BY-SA 4.0 (données) ; Apache-2.0 (code)
Langues	anglais
Taille du jeu	CharXiv = 2323 graphiques issus d'arXiv ; sous-ensemble descriptif (~plusieurs questions descriptives par graphique)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	95,5 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	94,6 %	24 juin 2026	Auto-déclaré
3	Qwen3 VL 32B Instruct	Qwen	90,5 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 32B Thinking	Qwen	90,2 %	22 septembre 2025	Auto-déclaré
5	GPT-5.4	OpenAI	90,0 %	5 mars 2026	Auto-déclaré
6	GPT-4.1 mini	OpenAI	88,4 %	14 avril 2025	Auto-déclaré
7	Command A+	cohere	88,0 %	20 mai 2026	Auto-déclaré
8	GPT-4.1	OpenAI	87,9 %	14 avril 2025	Auto-déclaré
9	Qwen3 VL 30B A3B Thinking	Qwen	86,9 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 8B Thinking	Qwen	85,9 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 30B A3B Instruct	Qwen	85,5 %	22 septembre 2025	Auto-déclaré
12	GPT-4o	OpenAI	85,3 %	27 mars 2025	Auto-déclaré
13	Qwen3 VL 4B Thinking	Qwen	83,9 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 8B Instruct	Qwen	83,0 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 4B Instruct	Qwen	76,2 %	22 septembre 2025	Auto-déclaré
16	GPT-4.1 nano	OpenAI	73,9 %	14 avril 2025	Auto-déclaré

Classement établi sur 16 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 87,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CharXiv-D indique qu’un modèle multimodal parvient généralement à repérer et restituer correctement des informations explicites dans des graphiques scientifiques, comme des éléments visuels, des tendances simples ou des quantités à compter. La métrique repose sur l’exactitude, avec des réponses notées par GPT-4o, ce qui apporte une procédure d’évaluation homogène mais ne remplace pas une validation humaine systématique des sorties de modèles. La fiabilité du classement doit aussi être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Avec une médiane à 87 % et un meilleur score à 96 % pour Seed 2.1 Pro, le benchmark suggère une forte performance des meilleurs systèmes sur cette tâche descriptive, avec un risque de saturation progressive. Sa portée reste spécialisée, limitée aux questions descriptives en anglais sur graphiques scientifiques, sans mesurer toute la compréhension d’un article ni le raisonnement scientifique complet. Comme pour tout jeu public, une contamination des données d’entraînement ne peut pas être exclue.

Sources des scores : llm-stats.

CharXiv-D

Carte d'identité

Classement des modèles (top 16)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench