MMLU-Redux

MMLU-Redux est une version améliorée de MMLU, conçue pour évaluer les connaissances générales multitâches des modèles de langage à travers un large éventail de matières académiques et professionnelles. Le benchmark a été publié en 2024 par University of Edinburgh et al., avec Aryo…

MMLU-Redux est une version améliorée de MMLU, conçue pour évaluer les connaissances générales multitâches des modèles de langage à travers un large éventail de matières académiques et professionnelles. Le benchmark a été publié en 2024 par University of Edinburgh et al., avec Aryo Pradipta Gema et al.

Son objectif est de rendre l’évaluation plus fiable en corrigeant des problèmes de qualité identifiés dans le jeu de données original. Les questions ont été ré-annotées manuellement, afin de mieux mesurer la capacité des modèles à répondre correctement à des QCM en anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkUniversity of Edinburgh et al. (Aryo Pradipta Gema et al.)
Capacités mesuréesConnaissances multitâches générales (57 matières académiques et professionnelles), version corrigée pour une évaluation plus fiable.
ModalitéTexte
Type de questionsQCM (questions à choix multiples, 4 options)
Métrique d'évaluationExactitude
AccèsPublic
LanguesAnglais
Taille du jeu5 700 questions ré-annotées manuellement (57 matières)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen95,0 %19 mai 2026Auto-déclaré
2Qwen3.5-397B-A17BQwen94,9 %16 février 2026Auto-déclaré
3Qwen3.6 PlusQwen94,5 %31 mars 2026Auto-déclaré
4Qwen3.7-PlusQwen94,5 %31 mai 2026Auto-déclaré
5Kimi K2 0905Moonshot AI94,4 %5 septembre 2025Auto-déclaré
6Qwen3.5-122B-A10BQwen94,0 %24 février 2026Auto-déclaré
7Qwen3-235B-A22B-Thinking-2507Qwen93,8 %25 juillet 2025Auto-déclaré
8Qwen3 VL 235B A22B ThinkingQwen93,7 %22 septembre 2025Auto-déclaré
9Qwen3.6-27BQwen93,5 %21 avril 2026Auto-déclaré
10DeepSeek-R1-0528DeepSeek93,4 %28 mai 2025Auto-déclaré
11Qwen3.5-35B-A3BQwen93,3 %24 février 2026Auto-déclaré
12Qwen3.6-35B-A3BQwen93,3 %16 avril 2026Auto-déclaré
13Qwen3.5-27BQwen93,2 %24 février 2026Auto-déclaré
14Qwen3-235B-A22B-Instruct-2507Qwen93,1 %22 juillet 2025Auto-déclaré
15MiMo-V2.5-ProXiaomi92,8 %27 avril 2026Auto-déclaré
16Kimi K2 InstructMoonshot AI92,7 %11 juillet 2025Auto-déclaré
17Kimi K2-Instruct-0905Moonshot AI92,7 %5 septembre 2025Auto-déclaré
18Qwen3-Next-80B-A3B-ThinkingQwen92,5 %10 septembre 2025Auto-déclaré
19Qwen3 VL 235B A22B InstructQwen92,2 %22 septembre 2025Auto-déclaré
20Qwen3 VL 32B ThinkingQwen91,9 %22 septembre 2025Auto-déclaré

Classement établi sur 48 modèles évalués, dont 42 de grands éditeurs. Score médian de l'ensemble : 90,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU-Redux indique une forte maîtrise de connaissances générales dans des contextes variés, avec une évaluation centrée sur l’exactitude des réponses. Dans la base considérée, le score médian atteint 90 %, et le meilleur résultat indiqué est celui de Qwen3.7 Max (Qwen), à 95 %. Cet écart relativement réduit entre la médiane et le meilleur score suggère un benchmark où les modèles les plus avancés peuvent se rapprocher d’un plafond de performance, ce qui limite sa capacité à départager finement les systèmes les plus performants.

La rigueur du benchmark tient à la ré-annotation manuelle de 5 700 questions, destinée à corriger les erreurs du MMLU original. Toutefois, les scores recensés sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les interpréter avec prudence. Comme le jeu est public et en anglais, la contamination des données d’entraînement reste un risque à surveiller. Le classement reflète surtout la performance sur des QCM de connaissances, sans couvrir à lui seul le raisonnement approfondi, l’usage d’outils ou les compétences pratiques.


Sources des scores : llm-stats.