Langage & rédaction

Global-MMLU

Global-MMLU est un benchmark d’évaluation multilingue consacré aux connaissances académiques et au raisonnement. Créé par Cohere For AI, avec des collaborateurs issus notamment de l’EPFL, Hugging Face, Mila et McGill, il étend l’esprit de MMLU à un cadre plus large, couvrant de…

Son intérêt tient à la prise en compte explicite des biais culturels et linguistiques. En distinguant des sous-ensembles culturellement sensibles et agnostiques, Global-MMLU sert à comparer les modèles au-delà de leur seule performance en anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Cohere For AI (Cohere Labs) et collaborateurs (EPFL, Hugging Face, Mila, McGill)
Capacités mesurées	Connaissances académiques multilingues et raisonnement, avec sous-ensembles culturellement sensibles vs agnostiques pour corriger les biais culturels/linguistiques
Modalité	Texte
Type de questions	QCM (questions à choix multiple)
Métrique d'évaluation	exactitude (accuracy)
Accès	Public
Licence	Apache-2.0
Langues	42 langues (multilingue)
Taille du jeu	~14 000 questions par langue (~589 000 traductions au total)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiMo-V2.5-Pro	Xiaomi	83,6 %	27 avril 2026	Auto-déclaré
2	Gemma 3n E4B Instructed	Google	60,3 %	26 juin 2025	Auto-déclaré
3	Gemma 3n E4B Instructed LiteRT Preview	Google	60,3 %	20 mai 2025	Auto-déclaré
4	Gemma 3n E2B Instructed	Google	55,1 %	26 juin 2025	Auto-déclaré
5	Gemma 3n E2B Instructed LiteRT (Preview)	Google	55,1 %	20 mai 2025	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 60,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Global-MMLU indique une capacité solide à mobiliser des connaissances académiques et à raisonner dans un contexte multilingue, avec une attention particulière aux effets de langue et de culture. Le classement observé dans la base met en avant MiMo-V2.5-Pro, qui atteint 84 %, nettement au-dessus du score médian de 60 % calculé sur les modèles évalués. Cette avance suggère une meilleure robustesse sur ce type de QCM multilingue, sans suffire à résumer les performances générales d’un modèle.

La lecture des résultats doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Cela limite la comparabilité avec des mesures reproduites de manière indépendante. Comme pour les benchmarks proches de MMLU, plusieurs limites doivent aussi être prises en compte : possible saturation à mesure que les modèles progressent, risque de contamination par exposition aux données d’évaluation, et portée centrée sur des QCM académiques plutôt que sur des tâches ouvertes, interactives ou professionnelles.

Sources des scores : llm-stats.

Global-MMLU

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench