Multilingual MMLU

Multilingual MMLU est un benchmark d’IA publié en 2025 par les auteurs de MMLU-ProX, Weihao Xuan et al. Il prolonge l’esprit de MMLU-Pro avec des questions à choix multiple conçues pour tester le raisonnement avancé et les connaissances académiques multidisciplinaires dans un cadre…

Multilingual MMLU est un benchmark d’IA publié en 2025 par les auteurs de MMLU-ProX, Weihao Xuan et al. Il prolonge l’esprit de MMLU-Pro avec des questions à choix multiple conçues pour tester le raisonnement avancé et les connaissances académiques multidisciplinaires dans un cadre multilingue.

Son rôle est de rendre comparables les performances de grands modèles de langage au-delà d’une seule langue ou d’un seul contexte culturel. En utilisant des questions identiques selon les langues, il sert à observer la robustesse linguistique, la généralisation et la capacité à raisonner sur des contenus exigeants.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAuteurs MMLU-ProX (Weihao Xuan et al.)
Capacités mesuréesRaisonnement avance et connaissances academiques multidisciplinaires evalues de maniere comparable a travers langues et cultures.
ModalitéTexte
Type de questionsQuestions a choix multiple (QCM, jusqu'a 10 options, type MMLU-Pro)
Métrique d'évaluationExactitude (accuracy)
AccèsPublic
Langues29 langues typologiquement diverses
Taille du jeu11 829 questions identiques par langue (version lite : 658 par langue) x 29 langues
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1o3-miniOpenAI80,7 %30 janvier 2025Auto-déclaré
2Ministral 3 (14B Base 2512)Mistral AI74,2 %4 décembre 2025Auto-déclaré
3Ministral 3 (8B Base 2512)Mistral AI70,6 %4 décembre 2025Auto-déclaré
4Ministral 3 (3B Base 2512)Mistral AI65,2 %4 décembre 2025Auto-déclaré
5Phi 4 MiniMicrosoft49,3 %30 avril 2025Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 70,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multilingual MMLU indique une forte exactitude sur des QCM difficiles, avec plusieurs options de réponse, et suggère une bonne capacité à mobiliser raisonnement et connaissances dans plusieurs langues. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 71% et un meilleur résultat attribué à o3-mini (OpenAI) à 81%, ce qui laisse apparaître un écart mesurable entre les modèles évalués, sans signaler une saturation complète. La prudence reste nécessaire: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité tant qu’ils ne sont pas tous reproduits dans un protocole indépendant. L’accès public du benchmark impose aussi de surveiller le risque de contamination des données d’entraînement. Sa portée demeure centrée sur des QCM académiques et raisonnés, elle ne couvre donc pas directement d’autres compétences comme l’interaction, la production longue, l’usage d’outils ou les tâches professionnelles spécialisées.


Sources des scores : llm-stats.