Vision & multimodal

CharXiv-R

CharXiv-R est le volet de raisonnement du benchmark CharXiv, créé par Princeton University avec Zirui Wang, Danqi Chen, Sanjeev Arora et leurs coauteurs. Il cible la compréhension de graphiques scientifiques issus d’articles arXiv, avec des questions ouvertes qui demandent de relier…

Le benchmark sert à évaluer la capacité des modèles multimodaux à dépasser la simple lecture de graphique pour produire une synthèse raisonnée. Il occupe ainsi une place utile dans l’analyse des modèles capables d’interpréter des figures scientifiques en contexte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Princeton University (Zirui Wang, Danqi Chen, Sanjeev Arora et al.)
Capacités mesurées	Raisonnement multimodal sur graphiques scientifiques : synthèse d'informations à travers des éléments visuels complexes d'un graphique.
Modalité	Multimodal
Type de questions	Questions de raisonnement ouvertes sur graphiques scientifiques
Métrique d'évaluation	Exactitude (questions de raisonnement)
Accès	Public
Licence	CC BY-SA 4.0
Langues	Anglais
Taille du jeu	CharXiv : 2 323 graphiques réels d'articles arXiv (1 question de raisonnement par graphique)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Mythos Preview	Anthropic	93,2 %	—	Auto-déclaré
2	Claude Opus 4.7	Anthropic	91,0 %	12 mai 2026	Auto-déclaré
3	Claude Opus 4.8	Anthropic	89,9 %	28 mai 2026	Auto-déclaré
4	Kimi K2.6	Moonshot AI	86,7 %	20 avril 2026	Auto-déclaré
5	Muse Spark	Meta	86,4 %	8 avril 2026	Auto-déclaré
6	Seed 2.1 Pro	bytedance	86,4 %	24 juin 2026	Auto-déclaré
7	Qwen3.7-Plus	Qwen	85,9 %	31 mai 2026	Auto-déclaré
8	Gemini 3.5 Flash	Google	84,2 %	19 mai 2026	Auto-déclaré
9	Seed 2.1 Turbo	bytedance	83,6 %	24 juin 2026	Auto-déclaré
10	GPT-5.2	OpenAI	82,1 %	11 décembre 2025	Auto-déclaré
11	GPT-5.5 Instant	OpenAI	81,6 %	5 mai 2026	Auto-déclaré
12	Qwen3.6 Plus	Qwen	81,5 %	31 mars 2026	Auto-déclaré
13	Gemini 3 Pro	Google	81,4 %	18 novembre 2025	Auto-déclaré
14	GPT-5	OpenAI	81,1 %	7 août 2025	Auto-déclaré
15	MiMo-V2.5	Xiaomi	81,0 %	22 avril 2026	Auto-déclaré
16	Gemini 3 Flash	Google	80,3 %	17 décembre 2025	Auto-déclaré
17	Qwen3.5-27B	Qwen	79,5 %	24 février 2026	Auto-déclaré
18	o3	OpenAI	78,6 %	16 avril 2025	Auto-déclaré
19	Qwen3.6-27B	Qwen	78,4 %	21 avril 2026	Auto-déclaré
20	Qwen3.6-35B-A3B	Qwen	78,0 %	16 avril 2026	Auto-déclaré

Classement établi sur 42 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 77,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CharXiv-R indique une bonne aptitude à extraire, comparer et combiner des informations présentes dans des graphiques scientifiques, puis à formuler une réponse de raisonnement. La métrique d’exactitude rend le résultat lisible, mais la fiabilité doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante.

Le classement montre un écart net entre la performance médiane et le meilleur résultat observé, avec Claude Mythos Preview en tête parmi les modèles référencés. Cette hiérarchie suggère que le raisonnement visuel sur graphiques reste discriminant, même si des signes de saturation peuvent apparaître lorsque les meilleurs modèles approchent des scores très élevés. Les limites tiennent aussi à la portée du test, centré sur des graphiques scientifiques en anglais, ainsi qu’au risque général de contamination associé à un benchmark public. Les résultats décrivent donc une compétence ciblée, pas une évaluation globale du raisonnement multimodal.

Sources des scores : llm-stats.

CharXiv-R

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench