Connaissances & sciences

C-Eval

C-Eval est une suite d’évaluation chinoise consacrée aux connaissances disciplinaires et au raisonnement des modèles de fondation. Créé par Y. Huang et al., avec HKUST NLP et des collaborateurs, le benchmark s’inscrit dans un contexte linguistique et académique chinois, à travers des…

Son rôle est de fournir un repère standardisé pour comparer la capacité des modèles à mobiliser des savoirs scolaires, universitaires et professionnels. Il inclut aussi C-Eval Hard, un sous-ensemble conçu autour de sujets particulièrement exigeants en raisonnement avancé.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Y. Huang et al. (HKUST NLP et collaborateurs)
Capacités mesurées	généraliste, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Jeu de test privé (réponses non divulguées)
Licence	CC BY-NC-SA 4.0
Langues	chinois
Taille du jeu	13 948 questions à choix multiples dans 52 disciplines
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	93,3 %	31 mars 2026	Auto-déclaré
2	Qwen3.5-397B-A17B	Qwen	93,0 %	16 février 2026	Auto-déclaré
3	Kimi K2 Base	Moonshot AI	92,5 %	11 juillet 2025	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	91,9 %	24 février 2026	Auto-déclaré
5	MiMo-V2.5-Pro	Xiaomi	91,5 %	27 avril 2026	Auto-déclaré
6	Qwen3.6-27B	Qwen	91,4 %	21 avril 2026	Auto-déclaré
7	Qwen3.5-27B	Qwen	90,5 %	24 février 2026	Auto-déclaré
8	Qwen3.5-35B-A3B	Qwen	90,2 %	24 février 2026	Auto-déclaré
9	Qwen3.6-35B-A3B	Qwen	90,0 %	16 avril 2026	Auto-déclaré
10	Kimi-k1.5	Moonshot AI	88,3 %	20 janvier 2025	Auto-déclaré
11	Qwen3.5-9B	Qwen	88,2 %	2 mars 2026	Auto-déclaré
12	DeepSeek-V3	DeepSeek	86,5 %	24 mars 2025	Auto-déclaré
13	Qwen3.5-4B	Qwen	85,1 %	2 mars 2026	Auto-déclaré
14	Qwen2 72B Instruct	Qwen	83,8 %	23 juillet 2024	Auto-déclaré
15	Qwen2 7B Instruct	Qwen	77,2 %	23 juillet 2024	Auto-déclaré
16	Qwen3.5-2B	Qwen	73,2 %	2 mars 2026	Auto-déclaré
17	Qwen3.5-0.8B	Qwen	50,5 %	2 mars 2026	Auto-déclaré
18	ERNIE 4.5	Baidu	40,7 %	25 juin 2025	Auto-déclaré

Classement établi sur 18 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 89,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur C-Eval indique une forte maîtrise de connaissances structurées en chinois et une bonne capacité à résoudre des QCM couvrant plusieurs niveaux de difficulté. Dans la base observée, le score médian atteint 89 %, tandis que le meilleur résultat revient à Qwen3.6 Plus (Qwen) avec 93 %, ce qui suggère un classement resserré parmi les modèles les plus performants. Cette proximité peut signaler une forme de saturation partielle du benchmark, où les écarts deviennent moins discriminants en haut du tableau. La rigueur est renforcée par un jeu de test privé dont les réponses ne sont pas divulguées, mais l’interprétation reste prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites principales tiennent au format QCM, à la portée centrée sur le chinois, et au risque général de contamination des données d’entraînement. Le classement met surtout en évidence les modèles les mieux adaptés aux connaissances et raisonnements évalués dans ce contexte spécifique.

Sources des scores : llm-stats.

C-Eval

Carte d'identité

Classement des modèles (top 18)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench