Mathématiques

MMLU-ProX

MMLU-ProX est un benchmark d’évaluation multilingue avancée pour les modèles de langage, publié en 2025 par l’équipe MMLU-ProX, avec Weihao Xuan et al. Il prolonge l’approche de MMLU-Pro avec des QCM plus difficiles, parallèles entre langues, destinés à tester des connaissances…

Le benchmark mesure l’exactitude des réponses dans un cadre multidisciplinaire et multilingue, avec une attention particulière au raisonnement translingue. Il sert à comparer la robustesse des modèles au-delà de l’anglais et à observer leur capacité à maintenir leurs performances sur des contenus équivalents dans plusieurs langues.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Équipe MMLU-ProX (Weihao Xuan et al.)
Capacités mesurées	Évaluation multilingue avancée multidisciplinaire (académique, professionnel) avec raisonnement translingue ; QCM difficiles parallèles entre langues.
Modalité	Texte
Type de questions	QCM étendu (jusqu'à ~10 options, comme MMLU-Pro)
Métrique d'évaluation	Exactitude
Accès	Public
Langues	29 langues
Taille du jeu	11 829 questions par langue (29 langues) ; version lite : 658 questions/langue
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	87,0 %	19 mai 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	85,4 %	31 mai 2026	Auto-déclaré
3	Qwen3.5-397B-A17B	Qwen	84,7 %	16 février 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	84,7 %	31 mars 2026	Auto-déclaré
5	Nemotron 3 Ultra (550B A55B)	NVIDIA	83,0 %	4 juin 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	82,2 %	24 février 2026	Auto-déclaré
7	Qwen3.5-27B	Qwen	82,2 %	24 février 2026	Auto-déclaré
8	Qwen3-235B-A22B-Thinking-2507	Qwen	81,0 %	25 juillet 2025	Auto-déclaré
9	Qwen3.5-35B-A3B	Qwen	81,0 %	24 février 2026	Auto-déclaré
10	Qwen3 VL 235B A22B Thinking	Qwen	80,6 %	22 septembre 2025	Auto-déclaré
11	Qwen3-235B-A22B-Instruct-2507	Qwen	79,4 %	22 juillet 2025	Auto-déclaré
12	Nemotron 3 Super (120B A12B)	NVIDIA	79,4 %	11 mars 2026	Auto-déclaré
13	Qwen3-Next-80B-A3B-Thinking	Qwen	78,7 %	10 septembre 2025	Auto-déclaré
14	Qwen3 VL 235B A22B Instruct	Qwen	77,8 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 32B Thinking	Qwen	77,2 %	22 septembre 2025	Auto-déclaré
16	Qwen3-Next-80B-A3B-Instruct	Qwen	76,7 %	10 septembre 2025	Auto-déclaré
17	Qwen3.5-9B	Qwen	76,3 %	2 mars 2026	Auto-déclaré
18	Qwen3 VL 30B A3B Thinking	Qwen	76,1 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 32B Instruct	Qwen	73,4 %	22 septembre 2025	Auto-déclaré
20	Qwen3.5-4B	Qwen	71,5 %	2 mars 2026	Auto-déclaré

Classement établi sur 32 modèles évalués, dont 32 de grands éditeurs. Score médian de l'ensemble : 76,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU-ProX indique qu’un modèle répond correctement à des QCM exigeants dans de nombreux domaines et qu’il conserve une partie de ses capacités lorsqu’un même contenu est décliné dans plusieurs langues. Le meilleur résultat recensé dans la base, Qwen3.7 Max à 87 %, se situe au-dessus d’un score médian de 76 % observé sur 32 modèles, ce qui suggère un écart encore visible entre les systèmes les plus performants et le reste du classement. L’interprétation doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, et non systématiquement mesurés dans un protocole indépendant. Comme pour MMLU et ses dérivés, les limites potentielles incluent la contamination par les données d’entraînement, une saturation progressive si les modèles atteignent des scores très élevés, et une portée centrée sur des QCM, qui ne couvre pas toute la complexité du raisonnement ouvert, de l’interaction ou de la production longue.

Sources des scores : llm-stats.

MMLU-ProX

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench