Mathématiques

MMLU-Redux

MMLU-Redux est une version améliorée de MMLU, conçue pour évaluer les connaissances générales multitâches des modèles de langage à travers un large éventail de matières académiques et professionnelles. Le benchmark a été publié en 2024 par University of Edinburgh et al., avec Aryo…

Son objectif est de rendre l’évaluation plus fiable en corrigeant des problèmes de qualité identifiés dans le jeu de données original. Les questions ont été ré-annotées manuellement, afin de mieux mesurer la capacité des modèles à répondre correctement à des QCM en anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	University of Edinburgh et al. (Aryo Pradipta Gema et al.)
Capacités mesurées	Connaissances multitâches générales (57 matières académiques et professionnelles), version corrigée pour une évaluation plus fiable.
Modalité	Texte
Type de questions	QCM (questions à choix multiples, 4 options)
Métrique d'évaluation	Exactitude
Accès	Public
Langues	Anglais
Taille du jeu	5 700 questions ré-annotées manuellement (57 matières)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	95,0 %	19 mai 2026	Auto-déclaré
2	Qwen3.5-397B-A17B	Qwen	94,9 %	16 février 2026	Auto-déclaré
3	Qwen3.6 Plus	Qwen	94,5 %	31 mars 2026	Auto-déclaré
4	Qwen3.7-Plus	Qwen	94,5 %	31 mai 2026	Auto-déclaré
5	Kimi K2 0905	Moonshot AI	94,4 %	5 septembre 2025	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	94,0 %	24 février 2026	Auto-déclaré
7	Qwen3-235B-A22B-Thinking-2507	Qwen	93,8 %	25 juillet 2025	Auto-déclaré
8	Qwen3 VL 235B A22B Thinking	Qwen	93,7 %	22 septembre 2025	Auto-déclaré
9	Qwen3.6-27B	Qwen	93,5 %	21 avril 2026	Auto-déclaré
10	DeepSeek-R1-0528	DeepSeek	93,4 %	28 mai 2025	Auto-déclaré
11	Qwen3.5-35B-A3B	Qwen	93,3 %	24 février 2026	Auto-déclaré
12	Qwen3.6-35B-A3B	Qwen	93,3 %	16 avril 2026	Auto-déclaré
13	Qwen3.5-27B	Qwen	93,2 %	24 février 2026	Auto-déclaré
14	Qwen3-235B-A22B-Instruct-2507	Qwen	93,1 %	22 juillet 2025	Auto-déclaré
15	MiMo-V2.5-Pro	Xiaomi	92,8 %	27 avril 2026	Auto-déclaré
16	Kimi K2 Instruct	Moonshot AI	92,7 %	11 juillet 2025	Auto-déclaré
17	Kimi K2-Instruct-0905	Moonshot AI	92,7 %	5 septembre 2025	Auto-déclaré
18	Qwen3-Next-80B-A3B-Thinking	Qwen	92,5 %	10 septembre 2025	Auto-déclaré
19	Qwen3 VL 235B A22B Instruct	Qwen	92,2 %	22 septembre 2025	Auto-déclaré
20	Qwen3 VL 32B Thinking	Qwen	91,9 %	22 septembre 2025	Auto-déclaré

Classement établi sur 48 modèles évalués, dont 42 de grands éditeurs. Score médian de l'ensemble : 90,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU-Redux indique une forte maîtrise de connaissances générales dans des contextes variés, avec une évaluation centrée sur l’exactitude des réponses. Dans la base considérée, le score médian atteint 90 %, et le meilleur résultat indiqué est celui de Qwen3.7 Max (Qwen), à 95 %. Cet écart relativement réduit entre la médiane et le meilleur score suggère un benchmark où les modèles les plus avancés peuvent se rapprocher d’un plafond de performance, ce qui limite sa capacité à départager finement les systèmes les plus performants.

La rigueur du benchmark tient à la ré-annotation manuelle de 5 700 questions, destinée à corriger les erreurs du MMLU original. Toutefois, les scores recensés sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les interpréter avec prudence. Comme le jeu est public et en anglais, la contamination des données d’entraînement reste un risque à surveiller. Le classement reflète surtout la performance sur des QCM de connaissances, sans couvrir à lui seul le raisonnement approfondi, l’usage d’outils ou les compétences pratiques.

Sources des scores : llm-stats.

MMLU-Redux

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench