C-Eval
C-Eval est une suite d’évaluation chinoise consacrée aux connaissances disciplinaires et au raisonnement des modèles de fondation. Créé par Y. Huang et al., avec HKUST NLP et des collaborateurs, le benchmark s’inscrit dans un contexte linguistique et académique chinois, à travers des…
C-Eval est une suite d’évaluation chinoise consacrée aux connaissances disciplinaires et au raisonnement des modèles de fondation. Créé par Y. Huang et al., avec HKUST NLP et des collaborateurs, le benchmark s’inscrit dans un contexte linguistique et académique chinois, à travers des questions à choix multiples couvrant des domaines variés.
Son rôle est de fournir un repère standardisé pour comparer la capacité des modèles à mobiliser des savoirs scolaires, universitaires et professionnels. Il inclut aussi C-Eval Hard, un sous-ensemble conçu autour de sujets particulièrement exigeants en raisonnement avancé.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Y. Huang et al. (HKUST NLP et collaborateurs) |
| Capacités mesurées | généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | CC BY-NC-SA 4.0 |
| Langues | chinois |
| Taille du jeu | 13 948 questions à choix multiples dans 52 disciplines |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 18)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 93,3 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3.5-397B-A17B | Qwen | 93,0 % | 16 février 2026 | Auto-déclaré |
| 3 | Kimi K2 Base | Moonshot AI | 92,5 % | 11 juillet 2025 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 91,9 % | 24 février 2026 | Auto-déclaré |
| 5 | MiMo-V2.5-Pro | Xiaomi | 91,5 % | 27 avril 2026 | Auto-déclaré |
| 6 | Qwen3.6-27B | Qwen | 91,4 % | 21 avril 2026 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 90,5 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-35B-A3B | Qwen | 90,2 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3.6-35B-A3B | Qwen | 90,0 % | 16 avril 2026 | Auto-déclaré |
| 10 | Kimi-k1.5 | Moonshot AI | 88,3 % | 20 janvier 2025 | Auto-déclaré |
| 11 | Qwen3.5-9B | Qwen | 88,2 % | 2 mars 2026 | Auto-déclaré |
| 12 | DeepSeek-V3 | DeepSeek | 86,5 % | 24 mars 2025 | Auto-déclaré |
| 13 | Qwen3.5-4B | Qwen | 85,1 % | 2 mars 2026 | Auto-déclaré |
| 14 | Qwen2 72B Instruct | Qwen | 83,8 % | 23 juillet 2024 | Auto-déclaré |
| 15 | Qwen2 7B Instruct | Qwen | 77,2 % | 23 juillet 2024 | Auto-déclaré |
| 16 | Qwen3.5-2B | Qwen | 73,2 % | 2 mars 2026 | Auto-déclaré |
| 17 | Qwen3.5-0.8B | Qwen | 50,5 % | 2 mars 2026 | Auto-déclaré |
| 18 | ERNIE 4.5 | Baidu | 40,7 % | 25 juin 2025 | Auto-déclaré |
Classement établi sur 18 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 89,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur C-Eval indique une forte maîtrise de connaissances structurées en chinois et une bonne capacité à résoudre des QCM couvrant plusieurs niveaux de difficulté. Dans la base observée, le score médian atteint 89 %, tandis que le meilleur résultat revient à Qwen3.6 Plus (Qwen) avec 93 %, ce qui suggère un classement resserré parmi les modèles les plus performants. Cette proximité peut signaler une forme de saturation partielle du benchmark, où les écarts deviennent moins discriminants en haut du tableau. La rigueur est renforcée par un jeu de test privé dont les réponses ne sont pas divulguées, mais l’interprétation reste prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites principales tiennent au format QCM, à la portée centrée sur le chinois, et au risque général de contamination des données d’entraînement. Le classement met surtout en évidence les modèles les mieux adaptés aux connaissances et raisonnements évalués dans ce contexte spécifique.
Sources des scores : llm-stats.