Multilingual MMLU
Multilingual MMLU est un benchmark d’IA publié en 2025 par les auteurs de MMLU-ProX, Weihao Xuan et al. Il prolonge l’esprit de MMLU-Pro avec des questions à choix multiple conçues pour tester le raisonnement avancé et les connaissances académiques multidisciplinaires dans un cadre…
Multilingual MMLU est un benchmark d’IA publié en 2025 par les auteurs de MMLU-ProX, Weihao Xuan et al. Il prolonge l’esprit de MMLU-Pro avec des questions à choix multiple conçues pour tester le raisonnement avancé et les connaissances académiques multidisciplinaires dans un cadre multilingue.
Son rôle est de rendre comparables les performances de grands modèles de langage au-delà d’une seule langue ou d’un seul contexte culturel. En utilisant des questions identiques selon les langues, il sert à observer la robustesse linguistique, la généralisation et la capacité à raisonner sur des contenus exigeants.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Auteurs MMLU-ProX (Weihao Xuan et al.) |
| Capacités mesurées | Raisonnement avance et connaissances academiques multidisciplinaires evalues de maniere comparable a travers langues et cultures. |
| Modalité | Texte |
| Type de questions | Questions a choix multiple (QCM, jusqu'a 10 options, type MMLU-Pro) |
| Métrique d'évaluation | Exactitude (accuracy) |
| Accès | Public |
| Langues | 29 langues typologiquement diverses |
| Taille du jeu | 11 829 questions identiques par langue (version lite : 658 par langue) x 29 langues |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | o3-mini | OpenAI | 80,7 % | 30 janvier 2025 | Auto-déclaré |
| 2 | Ministral 3 (14B Base 2512) | Mistral AI | 74,2 % | 4 décembre 2025 | Auto-déclaré |
| 3 | Ministral 3 (8B Base 2512) | Mistral AI | 70,6 % | 4 décembre 2025 | Auto-déclaré |
| 4 | Ministral 3 (3B Base 2512) | Mistral AI | 65,2 % | 4 décembre 2025 | Auto-déclaré |
| 5 | Phi 4 Mini | Microsoft | 49,3 % | 30 avril 2025 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 70,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Multilingual MMLU indique une forte exactitude sur des QCM difficiles, avec plusieurs options de réponse, et suggère une bonne capacité à mobiliser raisonnement et connaissances dans plusieurs langues. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 71% et un meilleur résultat attribué à o3-mini (OpenAI) à 81%, ce qui laisse apparaître un écart mesurable entre les modèles évalués, sans signaler une saturation complète. La prudence reste nécessaire: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité tant qu’ils ne sont pas tous reproduits dans un protocole indépendant. L’accès public du benchmark impose aussi de surveiller le risque de contamination des données d’entraînement. Sa portée demeure centrée sur des QCM académiques et raisonnés, elle ne couvre donc pas directement d’autres compétences comme l’interaction, la production longue, l’usage d’outils ou les tâches professionnelles spécialisées.
Sources des scores : llm-stats.