Global-MMLU-Lite
Global-MMLU-Lite est une version légère du benchmark Global MMLU, créée par Cohere Labs (Cohere For AI) pour évaluer des modèles de langage dans un contexte multilingue. Il repose sur des questions à choix multiples et vise à mesurer la connaissance et le raisonnement dans plusieurs…
Global-MMLU-Lite est une version légère du benchmark Global MMLU, créée par Cohere Labs (Cohere For AI) pour évaluer des modèles de langage dans un contexte multilingue. Il repose sur des questions à choix multiples et vise à mesurer la connaissance et le raisonnement dans plusieurs langues.
Sa particularité est de distinguer les questions culturellement sensibles des questions culturellement agnostiques. Cette séparation permet d’observer les performances au-delà d’une simple moyenne globale et de mieux analyser les biais culturels ou linguistiques dans l’évaluation multilingue.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Cohere Labs (Cohere For AI) |
| Capacités mesurées | Évaluation multilingue efficace de la connaissance et du raisonnement, en distinguant questions culturellement sensibles et agnostiques pour réduire les biais. |
| Modalité | Texte |
| Type de questions | Questions à choix multiples multilingues (culturellement sensibles / agnostiques) |
| Métrique d'évaluation | Exactitude (accuracy) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | 23 langues (multilingue) |
| Taille du jeu | 9200 échantillons de test (~13855 avec le dev) ; 200 CS + 200 CA par langue |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 14)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.5 Pro Preview 06-05 | 89,2 % | 5 juin 2025 | Auto-déclaré | |
| 2 | Gemini 2.5 Pro | 88,6 % | 20 mai 2025 | Auto-déclaré | |
| 3 | Gemini 2.5 Flash | 88,4 % | 20 mai 2025 | Auto-déclaré | |
| 4 | Gemini 2.5 Flash-Lite | 81,1 % | 17 juin 2025 | Auto-déclaré | |
| 5 | Gemini 2.0 Flash-Lite | 78,2 % | 5 février 2025 | Auto-déclaré | |
| 6 | Gemma 3 27B | 75,1 % | 12 mars 2025 | Auto-déclaré | |
| 7 | Gemma 3 12B | 69,5 % | 12 mars 2025 | Auto-déclaré | |
| 8 | Gemini Diffusion | 69,1 % | 20 mai 2025 | Auto-déclaré | |
| 9 | Gemma 3n E4B Instructed | 64,5 % | 26 juin 2025 | Auto-déclaré | |
| 10 | Gemma 3n E4B Instructed LiteRT Preview | 64,5 % | 20 mai 2025 | Auto-déclaré | |
| 11 | Gemma 3n E2B Instructed | 59,0 % | 26 juin 2025 | Auto-déclaré | |
| 12 | Gemma 3n E2B Instructed LiteRT (Preview) | 59,0 % | 20 mai 2025 | Auto-déclaré | |
| 13 | Gemma 3 4B | 54,5 % | 12 mars 2025 | Auto-déclaré | |
| 14 | Gemma 3 1B | 34,2 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 14 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 69,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Global-MMLU-Lite indique qu’un modèle répond correctement à un large ensemble de questions multilingues, avec une capacité à maintenir ses performances sur des contenus culturellement sensibles et agnostiques. Dans la base, le meilleur résultat observé est celui de Gemini 2.5 Pro Preview 06-05 (Google), à 89 %, nettement au-dessus du score médian de 69 % calculé sur 14 modèles évalués.
La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Le benchmark apporte une comparaison utile, mais sa portée reste limitée à des questions à choix multiples et à l’exactitude comme métrique unique. Comme pour d’autres jeux d’évaluation publics, des risques de contamination ou de saturation peuvent exister si les modèles ont été exposés à des contenus proches. Le classement met surtout en évidence les écarts de robustesse multilingue et la capacité des meilleurs modèles à limiter les biais culturels dans ce format d’évaluation.
Sources des scores : llm-stats.