Langage & rédaction

CMMLU

CMMLU, pour Chinese Massive Multitask Language Understanding, est un benchmark créé par Haonan Li et al. afin d’évaluer les grands modèles de langage dans un contexte chinois. Il repose sur des questions à choix multiples et couvre un large spectre de matières, des sciences naturelles…

Son intérêt est de tester à la fois la compréhension linguistique, les connaissances générales et spécialisées, ainsi que le raisonnement. CMMLU sert ainsi de repère pour comparer la capacité des modèles à mobiliser des connaissances en chinois dans des tâches académiques et professionnelles.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Haonan Li et al.
Capacités mesurées	généraliste, langage, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Langues	chinois
Taille du jeu	environ 11 500 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 6)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiMo-V2.5-Pro	Xiaomi	90,2 %	27 avril 2026	Auto-déclaré
2	Qwen2 72B Instruct	Qwen	90,1 %	23 juillet 2024	Auto-déclaré
3	LongCat-Flash-Chat	Meituan	84,3 %	29 août 2025	Auto-déclaré
4	LongCat-Flash-Lite	Meituan	82,5 %	5 février 2026	Auto-déclaré
5	MiniCPM-SALA	OpenBMB	81,5 %	11 février 2026	Auto-déclaré
6	ERNIE 4.5	Baidu	39,8 %	25 juin 2025	Auto-déclaré

Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 83,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur CMMLU indique qu’un modèle répond correctement à une grande proportion de QCM couvrant des domaines variés, ce qui suggère une bonne maîtrise du chinois, des connaissances étendues et une capacité de raisonnement sur des sujets allant du niveau de base au niveau professionnel. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui rend la comparaison moins robuste qu’une évaluation entièrement reproduite dans un cadre indépendant. Le niveau médian élevé, à 83% parmi les modèles suivis, peut aussi signaler un début de saturation pour les meilleurs systèmes, avec un écart limité jusqu’au meilleur score observé, MiMo-V2.5-Pro (Xiaomi) à 90%. Les limites tiennent aussi au format QCM, qui ne mesure pas directement la production longue ou l’interaction, à la portée centrée sur le chinois, et au risque de contamination lié au caractère public du benchmark. Le classement révèle donc surtout la solidité relative des modèles sur des connaissances structurées en chinois.

Sources des scores : llm-stats.

CMMLU

Carte d'identité

Classement des modèles (top 6)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench