Global-MMLU
Global-MMLU est un benchmark d’évaluation multilingue consacré aux connaissances académiques et au raisonnement. Créé par Cohere For AI, avec des collaborateurs issus notamment de l’EPFL, Hugging Face, Mila et McGill, il étend l’esprit de MMLU à un cadre plus large, couvrant de…
Global-MMLU est un benchmark d’évaluation multilingue consacré aux connaissances académiques et au raisonnement. Créé par Cohere For AI, avec des collaborateurs issus notamment de l’EPFL, Hugging Face, Mila et McGill, il étend l’esprit de MMLU à un cadre plus large, couvrant de nombreuses langues et des questions à choix multiple.
Son intérêt tient à la prise en compte explicite des biais culturels et linguistiques. En distinguant des sous-ensembles culturellement sensibles et agnostiques, Global-MMLU sert à comparer les modèles au-delà de leur seule performance en anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Cohere For AI (Cohere Labs) et collaborateurs (EPFL, Hugging Face, Mila, McGill) |
| Capacités mesurées | Connaissances académiques multilingues et raisonnement, avec sous-ensembles culturellement sensibles vs agnostiques pour corriger les biais culturels/linguistiques |
| Modalité | Texte |
| Type de questions | QCM (questions à choix multiple) |
| Métrique d'évaluation | exactitude (accuracy) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | 42 langues (multilingue) |
| Taille du jeu | ~14 000 questions par langue (~589 000 traductions au total) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiMo-V2.5-Pro | Xiaomi | 83,6 % | 27 avril 2026 | Auto-déclaré |
| 2 | Gemma 3n E4B Instructed | 60,3 % | 26 juin 2025 | Auto-déclaré | |
| 3 | Gemma 3n E4B Instructed LiteRT Preview | 60,3 % | 20 mai 2025 | Auto-déclaré | |
| 4 | Gemma 3n E2B Instructed | 55,1 % | 26 juin 2025 | Auto-déclaré | |
| 5 | Gemma 3n E2B Instructed LiteRT (Preview) | 55,1 % | 20 mai 2025 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 60,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Global-MMLU indique une capacité solide à mobiliser des connaissances académiques et à raisonner dans un contexte multilingue, avec une attention particulière aux effets de langue et de culture. Le classement observé dans la base met en avant MiMo-V2.5-Pro, qui atteint 84 %, nettement au-dessus du score médian de 60 % calculé sur les modèles évalués. Cette avance suggère une meilleure robustesse sur ce type de QCM multilingue, sans suffire à résumer les performances générales d’un modèle.
La lecture des résultats doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Cela limite la comparabilité avec des mesures reproduites de manière indépendante. Comme pour les benchmarks proches de MMLU, plusieurs limites doivent aussi être prises en compte : possible saturation à mesure que les modèles progressent, risque de contamination par exposition aux données d’évaluation, et portée centrée sur des QCM académiques plutôt que sur des tâches ouvertes, interactives ou professionnelles.
Sources des scores : llm-stats.