MMLU-Redux
MMLU-Redux est une version améliorée de MMLU, conçue pour évaluer les connaissances générales multitâches des modèles de langage à travers un large éventail de matières académiques et professionnelles. Le benchmark a été publié en 2024 par University of Edinburgh et al., avec Aryo…
MMLU-Redux est une version améliorée de MMLU, conçue pour évaluer les connaissances générales multitâches des modèles de langage à travers un large éventail de matières académiques et professionnelles. Le benchmark a été publié en 2024 par University of Edinburgh et al., avec Aryo Pradipta Gema et al.
Son objectif est de rendre l’évaluation plus fiable en corrigeant des problèmes de qualité identifiés dans le jeu de données original. Les questions ont été ré-annotées manuellement, afin de mieux mesurer la capacité des modèles à répondre correctement à des QCM en anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | University of Edinburgh et al. (Aryo Pradipta Gema et al.) |
| Capacités mesurées | Connaissances multitâches générales (57 matières académiques et professionnelles), version corrigée pour une évaluation plus fiable. |
| Modalité | Texte |
| Type de questions | QCM (questions à choix multiples, 4 options) |
| Métrique d'évaluation | Exactitude |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 5 700 questions ré-annotées manuellement (57 matières) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 95,0 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.5-397B-A17B | Qwen | 94,9 % | 16 février 2026 | Auto-déclaré |
| 3 | Qwen3.6 Plus | Qwen | 94,5 % | 31 mars 2026 | Auto-déclaré |
| 4 | Qwen3.7-Plus | Qwen | 94,5 % | 31 mai 2026 | Auto-déclaré |
| 5 | Kimi K2 0905 | Moonshot AI | 94,4 % | 5 septembre 2025 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 94,0 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 93,8 % | 25 juillet 2025 | Auto-déclaré |
| 8 | Qwen3 VL 235B A22B Thinking | Qwen | 93,7 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3.6-27B | Qwen | 93,5 % | 21 avril 2026 | Auto-déclaré |
| 10 | DeepSeek-R1-0528 | DeepSeek | 93,4 % | 28 mai 2025 | Auto-déclaré |
| 11 | Qwen3.5-35B-A3B | Qwen | 93,3 % | 24 février 2026 | Auto-déclaré |
| 12 | Qwen3.6-35B-A3B | Qwen | 93,3 % | 16 avril 2026 | Auto-déclaré |
| 13 | Qwen3.5-27B | Qwen | 93,2 % | 24 février 2026 | Auto-déclaré |
| 14 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 93,1 % | 22 juillet 2025 | Auto-déclaré |
| 15 | MiMo-V2.5-Pro | Xiaomi | 92,8 % | 27 avril 2026 | Auto-déclaré |
| 16 | Kimi K2 Instruct | Moonshot AI | 92,7 % | 11 juillet 2025 | Auto-déclaré |
| 17 | Kimi K2-Instruct-0905 | Moonshot AI | 92,7 % | 5 septembre 2025 | Auto-déclaré |
| 18 | Qwen3-Next-80B-A3B-Thinking | Qwen | 92,5 % | 10 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 235B A22B Instruct | Qwen | 92,2 % | 22 septembre 2025 | Auto-déclaré |
| 20 | Qwen3 VL 32B Thinking | Qwen | 91,9 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 48 modèles évalués, dont 42 de grands éditeurs. Score médian de l'ensemble : 90,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMLU-Redux indique une forte maîtrise de connaissances générales dans des contextes variés, avec une évaluation centrée sur l’exactitude des réponses. Dans la base considérée, le score médian atteint 90 %, et le meilleur résultat indiqué est celui de Qwen3.7 Max (Qwen), à 95 %. Cet écart relativement réduit entre la médiane et le meilleur score suggère un benchmark où les modèles les plus avancés peuvent se rapprocher d’un plafond de performance, ce qui limite sa capacité à départager finement les systèmes les plus performants.
La rigueur du benchmark tient à la ré-annotation manuelle de 5 700 questions, destinée à corriger les erreurs du MMLU original. Toutefois, les scores recensés sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les interpréter avec prudence. Comme le jeu est public et en anglais, la contamination des données d’entraînement reste un risque à surveiller. Le classement reflète surtout la performance sur des QCM de connaissances, sans couvrir à lui seul le raisonnement approfondi, l’usage d’outils ou les compétences pratiques.
Sources des scores : llm-stats.