MMLU-ProX
MMLU-ProX est un benchmark d’évaluation multilingue avancée pour les modèles de langage, publié en 2025 par l’équipe MMLU-ProX, avec Weihao Xuan et al. Il prolonge l’approche de MMLU-Pro avec des QCM plus difficiles, parallèles entre langues, destinés à tester des connaissances…
MMLU-ProX est un benchmark d’évaluation multilingue avancée pour les modèles de langage, publié en 2025 par l’équipe MMLU-ProX, avec Weihao Xuan et al. Il prolonge l’approche de MMLU-Pro avec des QCM plus difficiles, parallèles entre langues, destinés à tester des connaissances académiques et professionnelles.
Le benchmark mesure l’exactitude des réponses dans un cadre multidisciplinaire et multilingue, avec une attention particulière au raisonnement translingue. Il sert à comparer la robustesse des modèles au-delà de l’anglais et à observer leur capacité à maintenir leurs performances sur des contenus équivalents dans plusieurs langues.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Équipe MMLU-ProX (Weihao Xuan et al.) |
| Capacités mesurées | Évaluation multilingue avancée multidisciplinaire (académique, professionnel) avec raisonnement translingue ; QCM difficiles parallèles entre langues. |
| Modalité | Texte |
| Type de questions | QCM étendu (jusqu'à ~10 options, comme MMLU-Pro) |
| Métrique d'évaluation | Exactitude |
| Accès | Public |
| Langues | 29 langues |
| Taille du jeu | 11 829 questions par langue (29 langues) ; version lite : 658 questions/langue |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 87,0 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 85,4 % | 31 mai 2026 | Auto-déclaré |
| 3 | Qwen3.5-397B-A17B | Qwen | 84,7 % | 16 février 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 84,7 % | 31 mars 2026 | Auto-déclaré |
| 5 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 83,0 % | 4 juin 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 82,2 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-27B | Qwen | 82,2 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 81,0 % | 25 juillet 2025 | Auto-déclaré |
| 9 | Qwen3.5-35B-A3B | Qwen | 81,0 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3 VL 235B A22B Thinking | Qwen | 80,6 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 79,4 % | 22 juillet 2025 | Auto-déclaré |
| 12 | Nemotron 3 Super (120B A12B) | NVIDIA | 79,4 % | 11 mars 2026 | Auto-déclaré |
| 13 | Qwen3-Next-80B-A3B-Thinking | Qwen | 78,7 % | 10 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 235B A22B Instruct | Qwen | 77,8 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 32B Thinking | Qwen | 77,2 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3-Next-80B-A3B-Instruct | Qwen | 76,7 % | 10 septembre 2025 | Auto-déclaré |
| 17 | Qwen3.5-9B | Qwen | 76,3 % | 2 mars 2026 | Auto-déclaré |
| 18 | Qwen3 VL 30B A3B Thinking | Qwen | 76,1 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 32B Instruct | Qwen | 73,4 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3.5-4B | Qwen | 71,5 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 32 modèles évalués, dont 32 de grands éditeurs. Score médian de l'ensemble : 76,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMLU-ProX indique qu’un modèle répond correctement à des QCM exigeants dans de nombreux domaines et qu’il conserve une partie de ses capacités lorsqu’un même contenu est décliné dans plusieurs langues. Le meilleur résultat recensé dans la base, Qwen3.7 Max à 87 %, se situe au-dessus d’un score médian de 76 % observé sur 32 modèles, ce qui suggère un écart encore visible entre les systèmes les plus performants et le reste du classement. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés dans un protocole indépendant. Comme pour MMLU et ses dérivés, les limites potentielles incluent la contamination par les données d’entraînement, une saturation progressive si les modèles atteignent des scores très élevés, et une portée centrée sur des QCM, qui ne couvre pas toute la complexité du raisonnement ouvert, de l’interaction ou de la production longue.
Sources des scores : llm-stats.