Langage & rédaction

Global-MMLU-Lite

Global-MMLU-Lite est une version légère du benchmark Global MMLU, créée par Cohere Labs (Cohere For AI) pour évaluer des modèles de langage dans un contexte multilingue. Il repose sur des questions à choix multiples et vise à mesurer la connaissance et le raisonnement dans plusieurs…

Sa particularité est de distinguer les questions culturellement sensibles des questions culturellement agnostiques. Cette séparation permet d’observer les performances au-delà d’une simple moyenne globale et de mieux analyser les biais culturels ou linguistiques dans l’évaluation multilingue.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Cohere Labs (Cohere For AI)
Capacités mesurées	Évaluation multilingue efficace de la connaissance et du raisonnement, en distinguant questions culturellement sensibles et agnostiques pour réduire les biais.
Modalité	Texte
Type de questions	Questions à choix multiples multilingues (culturellement sensibles / agnostiques)
Métrique d'évaluation	Exactitude (accuracy)
Accès	Public
Licence	Apache-2.0
Langues	23 langues (multilingue)
Taille du jeu	9200 échantillons de test (~13855 avec le dev) ; 200 CS + 200 CA par langue
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 14)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.5 Pro Preview 06-05	Google	89,2 %	5 juin 2025	Auto-déclaré
2	Gemini 2.5 Pro	Google	88,6 %	20 mai 2025	Auto-déclaré
3	Gemini 2.5 Flash	Google	88,4 %	20 mai 2025	Auto-déclaré
4	Gemini 2.5 Flash-Lite	Google	81,1 %	17 juin 2025	Auto-déclaré
5	Gemini 2.0 Flash-Lite	Google	78,2 %	5 février 2025	Auto-déclaré
6	Gemma 3 27B	Google	75,1 %	12 mars 2025	Auto-déclaré
7	Gemma 3 12B	Google	69,5 %	12 mars 2025	Auto-déclaré
8	Gemini Diffusion	Google	69,1 %	20 mai 2025	Auto-déclaré
9	Gemma 3n E4B Instructed	Google	64,5 %	26 juin 2025	Auto-déclaré
10	Gemma 3n E4B Instructed LiteRT Preview	Google	64,5 %	20 mai 2025	Auto-déclaré
11	Gemma 3n E2B Instructed	Google	59,0 %	26 juin 2025	Auto-déclaré
12	Gemma 3n E2B Instructed LiteRT (Preview)	Google	59,0 %	20 mai 2025	Auto-déclaré
13	Gemma 3 4B	Google	54,5 %	12 mars 2025	Auto-déclaré
14	Gemma 3 1B	Google	34,2 %	12 mars 2025	Auto-déclaré

Classement établi sur 14 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 69,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Global-MMLU-Lite indique qu’un modèle répond correctement à un large ensemble de questions multilingues, avec une capacité à maintenir ses performances sur des contenus culturellement sensibles et agnostiques. Dans la base, le meilleur résultat observé est celui de Gemini 2.5 Pro Preview 06-05 (Google), à 89 %, nettement au-dessus du score médian de 69 % calculé sur 14 modèles évalués.

La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le benchmark apporte une comparaison utile, mais sa portée reste limitée à des questions à choix multiples et à l’exactitude comme métrique unique. Comme pour d’autres jeux d’évaluation publics, des risques de contamination ou de saturation peuvent exister si les modèles ont été exposés à des contenus proches. Le classement met surtout en évidence les écarts de robustesse multilingue et la capacité des meilleurs modèles à limiter les biais culturels dans ce format d’évaluation.

Sources des scores : llm-stats.

Global-MMLU-Lite

Carte d'identité

Classement des modèles (top 14)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench