Global-MMLU-Lite

Global-MMLU-Lite est une version légère du benchmark Global MMLU, créée par Cohere Labs (Cohere For AI) pour évaluer des modèles de langage dans un contexte multilingue. Il repose sur des questions à choix multiples et vise à mesurer la connaissance et le raisonnement dans plusieurs…

Global-MMLU-Lite est une version légère du benchmark Global MMLU, créée par Cohere Labs (Cohere For AI) pour évaluer des modèles de langage dans un contexte multilingue. Il repose sur des questions à choix multiples et vise à mesurer la connaissance et le raisonnement dans plusieurs langues.

Sa particularité est de distinguer les questions culturellement sensibles des questions culturellement agnostiques. Cette séparation permet d’observer les performances au-delà d’une simple moyenne globale et de mieux analyser les biais culturels ou linguistiques dans l’évaluation multilingue.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkCohere Labs (Cohere For AI)
Capacités mesuréesÉvaluation multilingue efficace de la connaissance et du raisonnement, en distinguant questions culturellement sensibles et agnostiques pour réduire les biais.
ModalitéTexte
Type de questionsQuestions à choix multiples multilingues (culturellement sensibles / agnostiques)
Métrique d'évaluationExactitude (accuracy)
AccèsPublic
LicenceApache-2.0
Langues23 langues (multilingue)
Taille du jeu9200 échantillons de test (~13855 avec le dev) ; 200 CS + 200 CA par langue
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 14)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.5 Pro Preview 06-05Google89,2 %5 juin 2025Auto-déclaré
2Gemini 2.5 ProGoogle88,6 %20 mai 2025Auto-déclaré
3Gemini 2.5 FlashGoogle88,4 %20 mai 2025Auto-déclaré
4Gemini 2.5 Flash-LiteGoogle81,1 %17 juin 2025Auto-déclaré
5Gemini 2.0 Flash-LiteGoogle78,2 %5 février 2025Auto-déclaré
6Gemma 3 27BGoogle75,1 %12 mars 2025Auto-déclaré
7Gemma 3 12BGoogle69,5 %12 mars 2025Auto-déclaré
8Gemini DiffusionGoogle69,1 %20 mai 2025Auto-déclaré
9Gemma 3n E4B InstructedGoogle64,5 %26 juin 2025Auto-déclaré
10Gemma 3n E4B Instructed LiteRT PreviewGoogle64,5 %20 mai 2025Auto-déclaré
11Gemma 3n E2B InstructedGoogle59,0 %26 juin 2025Auto-déclaré
12Gemma 3n E2B Instructed LiteRT (Preview)Google59,0 %20 mai 2025Auto-déclaré
13Gemma 3 4BGoogle54,5 %12 mars 2025Auto-déclaré
14Gemma 3 1BGoogle34,2 %12 mars 2025Auto-déclaré

Classement établi sur 14 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 69,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Global-MMLU-Lite indique qu’un modèle répond correctement à un large ensemble de questions multilingues, avec une capacité à maintenir ses performances sur des contenus culturellement sensibles et agnostiques. Dans la base, le meilleur résultat observé est celui de Gemini 2.5 Pro Preview 06-05 (Google), à 89 %, nettement au-dessus du score médian de 69 % calculé sur 14 modèles évalués.

La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le benchmark apporte une comparaison utile, mais sa portée reste limitée à des questions à choix multiples et à l’exactitude comme métrique unique. Comme pour d’autres jeux d’évaluation publics, des risques de contamination ou de saturation peuvent exister si les modèles ont été exposés à des contenus proches. Le classement met surtout en évidence les écarts de robustesse multilingue et la capacité des meilleurs modèles à limiter les biais culturels dans ce format d’évaluation.


Sources des scores : llm-stats.