Langage & rédaction

Multilingual MMLU

Multilingual MMLU est un benchmark d’IA publié en 2025 par les auteurs de MMLU-ProX, Weihao Xuan et al. Il prolonge l’esprit de MMLU-Pro avec des questions à choix multiple conçues pour tester le raisonnement avancé et les connaissances académiques multidisciplinaires dans un cadre…

Son rôle est de rendre comparables les performances de grands modèles de langage au-delà d’une seule langue ou d’un seul contexte culturel. En utilisant des questions identiques selon les langues, il sert à observer la robustesse linguistique, la généralisation et la capacité à raisonner sur des contenus exigeants.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Auteurs MMLU-ProX (Weihao Xuan et al.)
Capacités mesurées	Raisonnement avance et connaissances academiques multidisciplinaires evalues de maniere comparable a travers langues et cultures.
Modalité	Texte
Type de questions	Questions a choix multiple (QCM, jusqu'a 10 options, type MMLU-Pro)
Métrique d'évaluation	Exactitude (accuracy)
Accès	Public
Langues	29 langues typologiquement diverses
Taille du jeu	11 829 questions identiques par langue (version lite : 658 par langue) x 29 langues
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	o3-mini	OpenAI	80,7 %	30 janvier 2025	Auto-déclaré
2	Ministral 3 (14B Base 2512)	Mistral AI	74,2 %	4 décembre 2025	Auto-déclaré
3	Ministral 3 (8B Base 2512)	Mistral AI	70,6 %	4 décembre 2025	Auto-déclaré
4	Ministral 3 (3B Base 2512)	Mistral AI	65,2 %	4 décembre 2025	Auto-déclaré
5	Phi 4 Mini	Microsoft	49,3 %	30 avril 2025	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 70,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multilingual MMLU indique une forte exactitude sur des QCM difficiles, avec plusieurs options de réponse, et suggère une bonne capacité à mobiliser raisonnement et connaissances dans plusieurs langues. Le classement disponible dans la base montre un niveau déjà élevé, avec une médiane à 71% et un meilleur résultat attribué à o3-mini (OpenAI) à 81%, ce qui laisse apparaître un écart mesurable entre les modèles évalués, sans signaler une saturation complète. La prudence reste nécessaire: les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité tant qu’ils ne sont pas tous reproduits dans un protocole indépendant. L’accès public du benchmark impose aussi de surveiller le risque de contamination des données d’entraînement. Sa portée demeure centrée sur des QCM académiques et raisonnés, elle ne couvre donc pas directement d’autres compétences comme l’interaction, la production longue, l’usage d’outils ou les tâches professionnelles spécialisées.

Sources des scores : llm-stats.

Multilingual MMLU

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench