MMLU-ProX

MMLU-ProX est un benchmark d’évaluation multilingue avancée pour les modèles de langage, publié en 2025 par l’équipe MMLU-ProX, avec Weihao Xuan et al. Il prolonge l’approche de MMLU-Pro avec des QCM plus difficiles, parallèles entre langues, destinés à tester des connaissances…

MMLU-ProX est un benchmark d’évaluation multilingue avancée pour les modèles de langage, publié en 2025 par l’équipe MMLU-ProX, avec Weihao Xuan et al. Il prolonge l’approche de MMLU-Pro avec des QCM plus difficiles, parallèles entre langues, destinés à tester des connaissances académiques et professionnelles.

Le benchmark mesure l’exactitude des réponses dans un cadre multidisciplinaire et multilingue, avec une attention particulière au raisonnement translingue. Il sert à comparer la robustesse des modèles au-delà de l’anglais et à observer leur capacité à maintenir leurs performances sur des contenus équivalents dans plusieurs langues.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkÉquipe MMLU-ProX (Weihao Xuan et al.)
Capacités mesuréesÉvaluation multilingue avancée multidisciplinaire (académique, professionnel) avec raisonnement translingue ; QCM difficiles parallèles entre langues.
ModalitéTexte
Type de questionsQCM étendu (jusqu'à ~10 options, comme MMLU-Pro)
Métrique d'évaluationExactitude
AccèsPublic
Langues29 langues
Taille du jeu11 829 questions par langue (29 langues) ; version lite : 658 questions/langue
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen87,0 %19 mai 2026Auto-déclaré
2Qwen3.7-PlusQwen85,4 %31 mai 2026Auto-déclaré
3Qwen3.5-397B-A17BQwen84,7 %16 février 2026Auto-déclaré
4Qwen3.6 PlusQwen84,7 %31 mars 2026Auto-déclaré
5Nemotron 3 Ultra (550B A55B)NVIDIA83,0 %4 juin 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen82,2 %24 février 2026Auto-déclaré
7Qwen3.5-27BQwen82,2 %24 février 2026Auto-déclaré
8Qwen3-235B-A22B-Thinking-2507Qwen81,0 %25 juillet 2025Auto-déclaré
9Qwen3.5-35B-A3BQwen81,0 %24 février 2026Auto-déclaré
10Qwen3 VL 235B A22B ThinkingQwen80,6 %22 septembre 2025Auto-déclaré
11Qwen3-235B-A22B-Instruct-2507Qwen79,4 %22 juillet 2025Auto-déclaré
12Nemotron 3 Super (120B A12B)NVIDIA79,4 %11 mars 2026Auto-déclaré
13Qwen3-Next-80B-A3B-ThinkingQwen78,7 %10 septembre 2025Auto-déclaré
14Qwen3 VL 235B A22B InstructQwen77,8 %22 septembre 2025Auto-déclaré
15Qwen3 VL 32B ThinkingQwen77,2 %22 septembre 2025Auto-déclaré
16Qwen3-Next-80B-A3B-InstructQwen76,7 %10 septembre 2025Auto-déclaré
17Qwen3.5-9BQwen76,3 %2 mars 2026Auto-déclaré
18Qwen3 VL 30B A3B ThinkingQwen76,1 %22 septembre 2025Auto-déclaré
19Qwen3 VL 32B InstructQwen73,4 %22 septembre 2025Auto-déclaré
20Qwen3.5-4BQwen71,5 %2 mars 2026Auto-déclaré

Classement établi sur 32 modèles évalués, dont 32 de grands éditeurs. Score médian de l'ensemble : 76,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU-ProX indique qu’un modèle répond correctement à des QCM exigeants dans de nombreux domaines et qu’il conserve une partie de ses capacités lorsqu’un même contenu est décliné dans plusieurs langues. Le meilleur résultat recensé dans la base, Qwen3.7 Max à 87 %, se situe au-dessus d’un score médian de 76 % observé sur 32 modèles, ce qui suggère un écart encore visible entre les systèmes les plus performants et le reste du classement. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés dans un protocole indépendant. Comme pour MMLU et ses dérivés, les limites potentielles incluent la contamination par les données d’entraînement, une saturation progressive si les modèles atteignent des scores très élevés, et une portée centrée sur des QCM, qui ne couvre pas toute la complexité du raisonnement ouvert, de l’interaction ou de la production longue.


Sources des scores : llm-stats.