CharXiv-R

CharXiv-R est le volet de raisonnement du benchmark CharXiv, créé par Princeton University avec Zirui Wang, Danqi Chen, Sanjeev Arora et leurs coauteurs. Il cible la compréhension de graphiques scientifiques issus d’articles arXiv, avec des questions ouvertes qui demandent de relier…

CharXiv-R est le volet de raisonnement du benchmark CharXiv, créé par Princeton University avec Zirui Wang, Danqi Chen, Sanjeev Arora et leurs coauteurs. Il cible la compréhension de graphiques scientifiques issus d’articles arXiv, avec des questions ouvertes qui demandent de relier plusieurs éléments visuels complexes.

Le benchmark sert à évaluer la capacité des modèles multimodaux à dépasser la simple lecture de graphique pour produire une synthèse raisonnée. Il occupe ainsi une place utile dans l’analyse des modèles capables d’interpréter des figures scientifiques en contexte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkPrinceton University (Zirui Wang, Danqi Chen, Sanjeev Arora et al.)
Capacités mesuréesRaisonnement multimodal sur graphiques scientifiques : synthèse d'informations à travers des éléments visuels complexes d'un graphique.
ModalitéMultimodal
Type de questionsQuestions de raisonnement ouvertes sur graphiques scientifiques
Métrique d'évaluationExactitude (questions de raisonnement)
AccèsPublic
LicenceCC BY-SA 4.0
LanguesAnglais
Taille du jeuCharXiv : 2 323 graphiques réels d'articles arXiv (1 question de raisonnement par graphique)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Mythos PreviewAnthropic93,2 %Auto-déclaré
2Claude Opus 4.7Anthropic91,0 %12 mai 2026Auto-déclaré
3Claude Opus 4.8Anthropic89,9 %28 mai 2026Auto-déclaré
4Kimi K2.6Moonshot AI86,7 %20 avril 2026Auto-déclaré
5Muse SparkMeta86,4 %8 avril 2026Auto-déclaré
6Seed 2.1 Probytedance86,4 %24 juin 2026Auto-déclaré
7Qwen3.7-PlusQwen85,9 %31 mai 2026Auto-déclaré
8Gemini 3.5 FlashGoogle84,2 %19 mai 2026Auto-déclaré
9Seed 2.1 Turbobytedance83,6 %24 juin 2026Auto-déclaré
10GPT-5.2OpenAI82,1 %11 décembre 2025Auto-déclaré
11GPT-5.5 InstantOpenAI81,6 %5 mai 2026Auto-déclaré
12Qwen3.6 PlusQwen81,5 %31 mars 2026Auto-déclaré
13Gemini 3 ProGoogle81,4 %18 novembre 2025Auto-déclaré
14GPT-5OpenAI81,1 %7 août 2025Auto-déclaré
15MiMo-V2.5Xiaomi81,0 %22 avril 2026Auto-déclaré
16Gemini 3 FlashGoogle80,3 %17 décembre 2025Auto-déclaré
17Qwen3.5-27BQwen79,5 %24 février 2026Auto-déclaré
18o3OpenAI78,6 %16 avril 2025Auto-déclaré
19Qwen3.6-27BQwen78,4 %21 avril 2026Auto-déclaré
20Qwen3.6-35B-A3BQwen78,0 %16 avril 2026Auto-déclaré

Classement établi sur 42 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 77,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CharXiv-R indique une bonne aptitude à extraire, comparer et combiner des informations présentes dans des graphiques scientifiques, puis à formuler une réponse de raisonnement. La métrique d’exactitude rend le résultat lisible, mais la fiabilité doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante.

Le classement montre un écart net entre la performance médiane et le meilleur résultat observé, avec Claude Mythos Preview en tête parmi les modèles référencés. Cette hiérarchie suggère que le raisonnement visuel sur graphiques reste discriminant, même si des signes de saturation peuvent apparaître lorsque les meilleurs modèles approchent des scores très élevés. Les limites tiennent aussi à la portée du test, centré sur des graphiques scientifiques en anglais, ainsi qu’au risque général de contamination associé à un benchmark public. Les résultats décrivent donc une compétence ciblée, pas une évaluation globale du raisonnement multimodal.


Sources des scores : llm-stats.