Global-MMLU

Global-MMLU est un benchmark d’évaluation multilingue consacré aux connaissances académiques et au raisonnement. Créé par Cohere For AI, avec des collaborateurs issus notamment de l’EPFL, Hugging Face, Mila et McGill, il étend l’esprit de MMLU à un cadre plus large, couvrant de…

Global-MMLU est un benchmark d’évaluation multilingue consacré aux connaissances académiques et au raisonnement. Créé par Cohere For AI, avec des collaborateurs issus notamment de l’EPFL, Hugging Face, Mila et McGill, il étend l’esprit de MMLU à un cadre plus large, couvrant de nombreuses langues et des questions à choix multiple.

Son intérêt tient à la prise en compte explicite des biais culturels et linguistiques. En distinguant des sous-ensembles culturellement sensibles et agnostiques, Global-MMLU sert à comparer les modèles au-delà de leur seule performance en anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkCohere For AI (Cohere Labs) et collaborateurs (EPFL, Hugging Face, Mila, McGill)
Capacités mesuréesConnaissances académiques multilingues et raisonnement, avec sous-ensembles culturellement sensibles vs agnostiques pour corriger les biais culturels/linguistiques
ModalitéTexte
Type de questionsQCM (questions à choix multiple)
Métrique d'évaluationexactitude (accuracy)
AccèsPublic
LicenceApache-2.0
Langues42 langues (multilingue)
Taille du jeu~14 000 questions par langue (~589 000 traductions au total)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1MiMo-V2.5-ProXiaomi83,6 %27 avril 2026Auto-déclaré
2Gemma 3n E4B InstructedGoogle60,3 %26 juin 2025Auto-déclaré
3Gemma 3n E4B Instructed LiteRT PreviewGoogle60,3 %20 mai 2025Auto-déclaré
4Gemma 3n E2B InstructedGoogle55,1 %26 juin 2025Auto-déclaré
5Gemma 3n E2B Instructed LiteRT (Preview)Google55,1 %20 mai 2025Auto-déclaré

Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 60,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Global-MMLU indique une capacité solide à mobiliser des connaissances académiques et à raisonner dans un contexte multilingue, avec une attention particulière aux effets de langue et de culture. Le classement observé dans la base met en avant MiMo-V2.5-Pro, qui atteint 84 %, nettement au-dessus du score médian de 60 % calculé sur les modèles évalués. Cette avance suggère une meilleure robustesse sur ce type de QCM multilingue, sans suffire à résumer les performances générales d’un modèle.

La lecture des résultats doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Cela limite la comparabilité avec des mesures reproduites de manière indépendante. Comme pour les benchmarks proches de MMLU, plusieurs limites doivent aussi être prises en compte : possible saturation à mesure que les modèles progressent, risque de contamination par exposition aux données d’évaluation, et portée centrée sur des QCM académiques plutôt que sur des tâches ouvertes, interactives ou professionnelles.


Sources des scores : llm-stats.