CSimpleQA

CSimpleQA est un benchmark public consacré à l’évaluation de la factualité des modèles de langage en chinois. Créé par Alibaba Group, via OpenStellarTeam, il reprend l’esprit de SimpleQA pour tester la capacité à répondre correctement à des questions factuelles courtes, avec une…

CSimpleQA est un benchmark public consacré à l’évaluation de la factualité des modèles de langage en chinois. Créé par Alibaba Group, via OpenStellarTeam, il reprend l’esprit de SimpleQA pour tester la capacité à répondre correctement à des questions factuelles courtes, avec une attention particulière portée aux connaissances exprimées en chinois.

Le jeu couvre un large éventail de domaines, des humanités aux sciences, en passant par l’ingénierie, la culture et la société. Il sert ainsi de repère pour comparer la précision factuelle des modèles dans un contexte linguistique et culturel chinois.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAlibaba Group (OpenStellarTeam)
Capacités mesuréesFactualité / connaissance en chinois, capacité à répondre à des questions factuelles courtes
ModalitéTexte
Type de questionsquestions-réponses courtes (évaluation de factualité)
Métrique d'évaluationnotation par juge LLM (style SimpleQA via API OpenAI : correct/incorrect/non tenté, F-score)
AccèsPublic
Langueschinois
Taille du jeu3 000 questions (6 thèmes majeurs, 99 sous-thèmes)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek-V4-Pro-MaxDeepSeek84,4 %23 avril 2026Auto-déclaré
2Qwen3-235B-A22B-Instruct-2507Qwen84,3 %22 juillet 2025Auto-déclaré
3Qwen3 VL 235B A22B InstructQwen83,4 %22 septembre 2025Auto-déclaré
4DeepSeek-V4-Flash-MaxDeepSeek78,9 %23 avril 2026Auto-déclaré
5Kimi K2 InstructMoonshot AI78,4 %11 juillet 2025Auto-déclaré
6Kimi K2 BaseMoonshot AI77,6 %11 juillet 2025Auto-déclaré
7DeepSeek-V3DeepSeek64,8 %24 mars 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 78,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CSimpleQA indique qu’un modèle parvient souvent à produire des réponses courtes factuellement correctes en chinois, plutôt qu’à simplement générer des formulations plausibles. L’évaluation repose sur un juge LLM, dans un format inspiré de SimpleQA, qui classe les réponses comme correctes, incorrectes ou non tentées, puis agrège les résultats via un F-score. Cette méthode apporte une grille cohérente, mais les scores présents dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures entièrement reproduites de manière indépendante.

La médiane à 79 % et le meilleur score à 84 %, obtenu par DeepSeek-V4-Pro-Max, suggèrent un classement relativement resserré parmi les modèles suivis. Cela peut signaler des performances solides, mais aussi une possible proximité avec une zone de saturation partielle. Comme pour tout benchmark public, la contamination des données d’entraînement reste une limite à considérer. Sa portée demeure centrée sur la connaissance factuelle courte en chinois, sans mesurer directement le raisonnement long, la robustesse conversationnelle ou l’exécution de tâches complexes.


Sources des scores : llm-stats.