CharXiv-R
CharXiv-R est le volet de raisonnement du benchmark CharXiv, créé par Princeton University avec Zirui Wang, Danqi Chen, Sanjeev Arora et leurs coauteurs. Il cible la compréhension de graphiques scientifiques issus d’articles arXiv, avec des questions ouvertes qui demandent de relier…
CharXiv-R est le volet de raisonnement du benchmark CharXiv, créé par Princeton University avec Zirui Wang, Danqi Chen, Sanjeev Arora et leurs coauteurs. Il cible la compréhension de graphiques scientifiques issus d’articles arXiv, avec des questions ouvertes qui demandent de relier plusieurs éléments visuels complexes.
Le benchmark sert à évaluer la capacité des modèles multimodaux à dépasser la simple lecture de graphique pour produire une synthèse raisonnée. Il occupe ainsi une place utile dans l’analyse des modèles capables d’interpréter des figures scientifiques en contexte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Princeton University (Zirui Wang, Danqi Chen, Sanjeev Arora et al.) |
| Capacités mesurées | Raisonnement multimodal sur graphiques scientifiques : synthèse d'informations à travers des éléments visuels complexes d'un graphique. |
| Modalité | Multimodal |
| Type de questions | Questions de raisonnement ouvertes sur graphiques scientifiques |
| Métrique d'évaluation | Exactitude (questions de raisonnement) |
| Accès | Public |
| Licence | CC BY-SA 4.0 |
| Langues | Anglais |
| Taille du jeu | CharXiv : 2 323 graphiques réels d'articles arXiv (1 question de raisonnement par graphique) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 93,2 % | — | Auto-déclaré |
| 2 | Claude Opus 4.7 | Anthropic | 91,0 % | 12 mai 2026 | Auto-déclaré |
| 3 | Claude Opus 4.8 | Anthropic | 89,9 % | 28 mai 2026 | Auto-déclaré |
| 4 | Kimi K2.6 | Moonshot AI | 86,7 % | 20 avril 2026 | Auto-déclaré |
| 5 | Muse Spark | Meta | 86,4 % | 8 avril 2026 | Auto-déclaré |
| 6 | Seed 2.1 Pro | bytedance | 86,4 % | 24 juin 2026 | Auto-déclaré |
| 7 | Qwen3.7-Plus | Qwen | 85,9 % | 31 mai 2026 | Auto-déclaré |
| 8 | Gemini 3.5 Flash | 84,2 % | 19 mai 2026 | Auto-déclaré | |
| 9 | Seed 2.1 Turbo | bytedance | 83,6 % | 24 juin 2026 | Auto-déclaré |
| 10 | GPT-5.2 | OpenAI | 82,1 % | 11 décembre 2025 | Auto-déclaré |
| 11 | GPT-5.5 Instant | OpenAI | 81,6 % | 5 mai 2026 | Auto-déclaré |
| 12 | Qwen3.6 Plus | Qwen | 81,5 % | 31 mars 2026 | Auto-déclaré |
| 13 | Gemini 3 Pro | 81,4 % | 18 novembre 2025 | Auto-déclaré | |
| 14 | GPT-5 | OpenAI | 81,1 % | 7 août 2025 | Auto-déclaré |
| 15 | MiMo-V2.5 | Xiaomi | 81,0 % | 22 avril 2026 | Auto-déclaré |
| 16 | Gemini 3 Flash | 80,3 % | 17 décembre 2025 | Auto-déclaré | |
| 17 | Qwen3.5-27B | Qwen | 79,5 % | 24 février 2026 | Auto-déclaré |
| 18 | o3 | OpenAI | 78,6 % | 16 avril 2025 | Auto-déclaré |
| 19 | Qwen3.6-27B | Qwen | 78,4 % | 21 avril 2026 | Auto-déclaré |
| 20 | Qwen3.6-35B-A3B | Qwen | 78,0 % | 16 avril 2026 | Auto-déclaré |
Classement établi sur 42 modèles évalués, dont 36 de grands éditeurs. Score médian de l'ensemble : 77,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CharXiv-R indique une bonne aptitude à extraire, comparer et combiner des informations présentes dans des graphiques scientifiques, puis à formuler une réponse de raisonnement. La métrique d’exactitude rend le résultat lisible, mais la fiabilité doit être interprétée avec prudence, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante.
Le classement montre un écart net entre la performance médiane et le meilleur résultat observé, avec Claude Mythos Preview en tête parmi les modèles référencés. Cette hiérarchie suggère que le raisonnement visuel sur graphiques reste discriminant, même si des signes de saturation peuvent apparaître lorsque les meilleurs modèles approchent des scores très élevés. Les limites tiennent aussi à la portée du test, centré sur des graphiques scientifiques en anglais, ainsi qu’au risque général de contamination associé à un benchmark public. Les résultats décrivent donc une compétence ciblée, pas une évaluation globale du raisonnement multimodal.
Sources des scores : llm-stats.