CMMLU
CMMLU, pour Chinese Massive Multitask Language Understanding, est un benchmark créé par Haonan Li et al. afin d’évaluer les grands modèles de langage dans un contexte chinois. Il repose sur des questions à choix multiples et couvre un large spectre de matières, des sciences naturelles…
CMMLU, pour Chinese Massive Multitask Language Understanding, est un benchmark créé par Haonan Li et al. afin d’évaluer les grands modèles de langage dans un contexte chinois. Il repose sur des questions à choix multiples et couvre un large spectre de matières, des sciences naturelles aux sciences sociales, en passant par l’ingénierie et les humanités.
Son intérêt est de tester à la fois la compréhension linguistique, les connaissances générales et spécialisées, ainsi que le raisonnement. CMMLU sert ainsi de repère pour comparer la capacité des modèles à mobiliser des connaissances en chinois dans des tâches académiques et professionnelles.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Haonan Li et al. |
| Capacités mesurées | généraliste, langage, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | chinois |
| Taille du jeu | environ 11 500 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 6)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiMo-V2.5-Pro | Xiaomi | 90,2 % | 27 avril 2026 | Auto-déclaré |
| 2 | Qwen2 72B Instruct | Qwen | 90,1 % | 23 juillet 2024 | Auto-déclaré |
| 3 | LongCat-Flash-Chat | Meituan | 84,3 % | 29 août 2025 | Auto-déclaré |
| 4 | LongCat-Flash-Lite | Meituan | 82,5 % | 5 février 2026 | Auto-déclaré |
| 5 | MiniCPM-SALA | OpenBMB | 81,5 % | 11 février 2026 | Auto-déclaré |
| 6 | ERNIE 4.5 | Baidu | 39,8 % | 25 juin 2025 | Auto-déclaré |
Classement établi sur 6 modèles évalués, dont 1 de grands éditeurs. Score médian de l'ensemble : 83,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur CMMLU indique qu’un modèle répond correctement à une grande proportion de QCM couvrant des domaines variés, ce qui suggère une bonne maîtrise du chinois, des connaissances étendues et une capacité de raisonnement sur des sujets allant du niveau de base au niveau professionnel. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui rend la comparaison moins robuste qu’une évaluation entièrement reproduite dans un cadre indépendant. Le niveau médian élevé, à 83% parmi les modèles suivis, peut aussi signaler un début de saturation pour les meilleurs systèmes, avec un écart limité jusqu’au meilleur score observé, MiMo-V2.5-Pro (Xiaomi) à 90%. Les limites tiennent aussi au format QCM, qui ne mesure pas directement la production longue ou l’interaction, à la portée centrée sur le chinois, et au risque de contamination lié au caractère public du benchmark. Le classement révèle donc surtout la solidité relative des modèles sur des connaissances structurées en chinois.
Sources des scores : llm-stats.