CMMLU

CMMLU, pour Chinese Massive Multitask Language Understanding, est un benchmark créé par Haonan Li et al. afin d’évaluer les grands modèles de langage dans un contexte chinois. Il repose sur des questions à choix multiples et couvre un large spectre de matières, des sciences naturelles…

CMMLU, pour Chinese Massive Multitask Language Understanding, est un benchmark créé par Haonan Li et al. afin d’évaluer les grands modèles de langage dans un contexte chinois. Il repose sur des questions à choix multiples et couvre un large spectre de matières, des sciences naturelles aux sciences sociales, en passant par l’ingénierie et les humanités.

Son intérêt est de tester à la fois la compréhension linguistique, les connaissances générales et spécialisées, ainsi que le raisonnement. CMMLU sert ainsi de repère pour comparer la capacité des modèles à mobiliser des connaissances en chinois dans des tâches académiques et professionnelles.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkHaonan Li et al.
Capacités mesuréesgénéraliste, langage, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
Langueschinois
Taille du jeuenviron 11 500 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#ModèleÉditeurScoreSortieFiabilité
1MiMo-V2.5-ProXiaomi90,2 %27 avril 2026Auto-déclaré
2Qwen2 72B InstructQwen90,1 %23 juillet 2024Auto-déclaré
3LongCat-Flash-ChatMeituan84,3 %29 août 2025Auto-déclaré
4LongCat-Flash-LiteMeituan82,5 %5 février 2026Auto-déclaré
5MiniCPM-SALAOpenBMB81,5 %11 février 2026Auto-déclaré
6ERNIE 4.5Baidu39,8 %25 juin 2025Auto-déclaré

Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 83,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CMMLU indique qu’un modèle répond correctement à une grande proportion de QCM couvrant des domaines variés, ce qui suggère une bonne maîtrise du chinois, des connaissances étendues et une capacité de raisonnement sur des sujets allant du niveau de base au niveau professionnel. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui rend la comparaison moins robuste qu’une évaluation entièrement reproduite dans un cadre indépendant. Le niveau médian élevé, à 83% parmi les modèles suivis, peut aussi signaler un début de saturation pour les meilleurs systèmes, avec un écart limité jusqu’au meilleur score observé, MiMo-V2.5-Pro (Xiaomi) à 90%. Les limites tiennent aussi au format QCM, qui ne mesure pas directement la production longue ou l’interaction, à la portée centrée sur le chinois, et au risque de contamination lié au caractère public du benchmark. Le classement révèle donc surtout la solidité relative des modèles sur des connaissances structurées en chinois.


Sources des scores : llm-stats.