CSimpleQA
CSimpleQA est un benchmark public consacré à l’évaluation de la factualité des modèles de langage en chinois. Créé par Alibaba Group, via OpenStellarTeam, il reprend l’esprit de SimpleQA pour tester la capacité à répondre correctement à des questions factuelles courtes, avec une…
CSimpleQA est un benchmark public consacré à l’évaluation de la factualité des modèles de langage en chinois. Créé par Alibaba Group, via OpenStellarTeam, il reprend l’esprit de SimpleQA pour tester la capacité à répondre correctement à des questions factuelles courtes, avec une attention particulière portée aux connaissances exprimées en chinois.
Le jeu couvre un large éventail de domaines, des humanités aux sciences, en passant par l’ingénierie, la culture et la société. Il sert ainsi de repère pour comparer la précision factuelle des modèles dans un contexte linguistique et culturel chinois.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Alibaba Group (OpenStellarTeam) |
| Capacités mesurées | Factualité / connaissance en chinois, capacité à répondre à des questions factuelles courtes |
| Modalité | Texte |
| Type de questions | questions-réponses courtes (évaluation de factualité) |
| Métrique d'évaluation | notation par juge LLM (style SimpleQA via API OpenAI : correct/incorrect/non tenté, F-score) |
| Accès | Public |
| Langues | chinois |
| Taille du jeu | 3 000 questions (6 thèmes majeurs, 99 sous-thèmes) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek-V4-Pro-Max | DeepSeek | 84,4 % | 23 avril 2026 | Auto-déclaré |
| 2 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 84,3 % | 22 juillet 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Instruct | Qwen | 83,4 % | 22 septembre 2025 | Auto-déclaré |
| 4 | DeepSeek-V4-Flash-Max | DeepSeek | 78,9 % | 23 avril 2026 | Auto-déclaré |
| 5 | Kimi K2 Instruct | Moonshot AI | 78,4 % | 11 juillet 2025 | Auto-déclaré |
| 6 | Kimi K2 Base | Moonshot AI | 77,6 % | 11 juillet 2025 | Auto-déclaré |
| 7 | DeepSeek-V3 | DeepSeek | 64,8 % | 24 mars 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 78,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CSimpleQA indique qu’un modèle parvient souvent à produire des réponses courtes factuellement correctes en chinois, plutôt qu’à simplement générer des formulations plausibles. L’évaluation repose sur un juge LLM, dans un format inspiré de SimpleQA, qui classe les réponses comme correctes, incorrectes ou non tentées, puis agrège les résultats via un F-score. Cette méthode apporte une grille cohérente, mais les scores présents dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures entièrement reproduites de manière indépendante.
La médiane à 79 % et le meilleur score à 84 %, obtenu par DeepSeek-V4-Pro-Max, suggèrent un classement relativement resserré parmi les modèles suivis. Cela peut signaler des performances solides, mais aussi une possible proximité avec une zone de saturation partielle. Comme pour tout benchmark public, la contamination des données d’entraînement reste une limite à considérer. Sa portée demeure centrée sur la connaissance factuelle courte en chinois, sans mesurer directement le raisonnement long, la robustesse conversationnelle ou l’exécution de tâches complexes.
Sources des scores : llm-stats.