C-Eval

C-Eval est une suite d’évaluation chinoise consacrée aux connaissances disciplinaires et au raisonnement des modèles de fondation. Créé par Y. Huang et al., avec HKUST NLP et des collaborateurs, le benchmark s’inscrit dans un contexte linguistique et académique chinois, à travers des…

C-Eval est une suite d’évaluation chinoise consacrée aux connaissances disciplinaires et au raisonnement des modèles de fondation. Créé par Y. Huang et al., avec HKUST NLP et des collaborateurs, le benchmark s’inscrit dans un contexte linguistique et académique chinois, à travers des questions à choix multiples couvrant des domaines variés.

Son rôle est de fournir un repère standardisé pour comparer la capacité des modèles à mobiliser des savoirs scolaires, universitaires et professionnels. Il inclut aussi C-Eval Hard, un sous-ensemble conçu autour de sujets particulièrement exigeants en raisonnement avancé.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkY. Huang et al. (HKUST NLP et collaborateurs)
Capacités mesuréesgénéraliste, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsJeu de test privé (réponses non divulguées)
LicenceCC BY-NC-SA 4.0
Langueschinois
Taille du jeu13 948 questions à choix multiples dans 52 disciplines
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 18)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6 PlusQwen93,3 %31 mars 2026Auto-déclaré
2Qwen3.5-397B-A17BQwen93,0 %16 février 2026Auto-déclaré
3Kimi K2 BaseMoonshot AI92,5 %11 juillet 2025Auto-déclaré
4Qwen3.5-122B-A10BQwen91,9 %24 février 2026Auto-déclaré
5MiMo-V2.5-ProXiaomi91,5 %27 avril 2026Auto-déclaré
6Qwen3.6-27BQwen91,4 %21 avril 2026Auto-déclaré
7Qwen3.5-27BQwen90,5 %24 février 2026Auto-déclaré
8Qwen3.5-35B-A3BQwen90,2 %24 février 2026Auto-déclaré
9Qwen3.6-35B-A3BQwen90,0 %16 avril 2026Auto-déclaré
10Kimi-k1.5Moonshot AI88,3 %20 janvier 2025Auto-déclaré
11Qwen3.5-9BQwen88,2 %2 mars 2026Auto-déclaré
12DeepSeek-V3DeepSeek86,5 %24 mars 2025Auto-déclaré
13Qwen3.5-4BQwen85,1 %2 mars 2026Auto-déclaré
14Qwen2 72B InstructQwen83,8 %23 juillet 2024Auto-déclaré
15Qwen2 7B InstructQwen77,2 %23 juillet 2024Auto-déclaré
16Qwen3.5-2BQwen73,2 %2 mars 2026Auto-déclaré
17Qwen3.5-0.8BQwen50,5 %2 mars 2026Auto-déclaré
18ERNIE 4.5Baidu40,7 %25 juin 2025Auto-déclaré

Classement établi sur 18 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 89,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur C-Eval indique une forte maîtrise de connaissances structurées en chinois et une bonne capacité à résoudre des QCM couvrant plusieurs niveaux de difficulté. Dans la base observée, le score médian atteint 89 %, tandis que le meilleur résultat revient à Qwen3.6 Plus (Qwen) avec 93 %, ce qui suggère un classement resserré parmi les modèles les plus performants. Cette proximité peut signaler une forme de saturation partielle du benchmark, où les écarts deviennent moins discriminants en haut du tableau. La rigueur est renforcée par un jeu de test privé dont les réponses ne sont pas divulguées, mais l’interprétation reste prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites principales tiennent au format QCM, à la portée centrée sur le chinois, et au risque général de contamination des données d’entraînement. Le classement met surtout en évidence les modèles les mieux adaptés aux connaissances et raisonnements évalués dans ce contexte spécifique.


Sources des scores : llm-stats.