Langage & rédaction

CSimpleQA

CSimpleQA est un benchmark public consacré à l’évaluation de la factualité des modèles de langage en chinois. Créé par Alibaba Group, via OpenStellarTeam, il reprend l’esprit de SimpleQA pour tester la capacité à répondre correctement à des questions factuelles courtes, avec une…

Le jeu couvre un large éventail de domaines, des humanités aux sciences, en passant par l’ingénierie, la culture et la société. Il sert ainsi de repère pour comparer la précision factuelle des modèles dans un contexte linguistique et culturel chinois.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Alibaba Group (OpenStellarTeam)
Capacités mesurées	Factualité / connaissance en chinois, capacité à répondre à des questions factuelles courtes
Modalité	Texte
Type de questions	questions-réponses courtes (évaluation de factualité)
Métrique d'évaluation	notation par juge LLM (style SimpleQA via API OpenAI : correct/incorrect/non tenté, F-score)
Accès	Public
Langues	chinois
Taille du jeu	3 000 questions (6 thèmes majeurs, 99 sous-thèmes)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek-V4-Pro-Max	DeepSeek	84,4 %	23 avril 2026	Auto-déclaré
2	Qwen3-235B-A22B-Instruct-2507	Qwen	84,3 %	22 juillet 2025	Auto-déclaré
3	Qwen3 VL 235B A22B Instruct	Qwen	83,4 %	22 septembre 2025	Auto-déclaré
4	DeepSeek-V4-Flash-Max	DeepSeek	78,9 %	23 avril 2026	Auto-déclaré
5	Kimi K2 Instruct	Moonshot AI	78,4 %	11 juillet 2025	Auto-déclaré
6	Kimi K2 Base	Moonshot AI	77,6 %	11 juillet 2025	Auto-déclaré
7	DeepSeek-V3	DeepSeek	64,8 %	24 mars 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 78,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CSimpleQA indique qu’un modèle parvient souvent à produire des réponses courtes factuellement correctes en chinois, plutôt qu’à simplement générer des formulations plausibles. L’évaluation repose sur un juge LLM, dans un format inspiré de SimpleQA, qui classe les réponses comme correctes, incorrectes ou non tentées, puis agrège les résultats via un F-score. Cette méthode apporte une grille cohérente, mais les scores présents dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures entièrement reproduites de manière indépendante.

La médiane à 79 % et le meilleur score à 84 %, obtenu par DeepSeek-V4-Pro-Max, suggèrent un classement relativement resserré parmi les modèles suivis. Cela peut signaler des performances solides, mais aussi une possible proximité avec une zone de saturation partielle. Comme pour tout benchmark public, la contamination des données d’entraînement reste une limite à considérer. Sa portée demeure centrée sur la connaissance factuelle courte en chinois, sans mesurer directement le raisonnement long, la robustesse conversationnelle ou l’exécution de tâches complexes.

Sources des scores : llm-stats.

CSimpleQA

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench