MMLU-Pro

MMLU-Pro est un benchmark de compréhension multitâche conçu par TIGER AI Lab pour évaluer des modèles de langage sur des questions à choix multiples plus exigeantes que celles de MMLU. Il met l’accent sur le raisonnement dans des domaines variés, avec des items filtrés pour réduire les…

MMLU-Pro est un benchmark de compréhension multitâche conçu par TIGER AI Lab pour évaluer des modèles de langage sur des questions à choix multiples plus exigeantes que celles de MMLU. Il met l’accent sur le raisonnement dans des domaines variés, avec des items filtrés pour réduire les questions triviales.

Son rôle est de fournir un test plus robuste lorsque les performances sur MMLU deviennent moins discriminantes. En élargissant le nombre de réponses possibles et en privilégiant des tâches intensives en raisonnement, MMLU-Pro cherche à mieux distinguer les capacités réelles des modèles généralistes.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkTIGER AI Lab
Capacités mesuréesfinance, généraliste, santé, langage, juridique, mathématiques, raisonnement
ModalitéTexte
Type de questionsQCM à 10 choix
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais
Taille du jeuenviron 12 000 questions
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen89,6 %19 mai 2026Auto-déclaré
2Qwen3.6 PlusQwen88,5 %31 mars 2026Auto-déclaré
3Qwen3.7-PlusQwen88,5 %31 mai 2026Auto-déclaré
4MiniMax M2.1MiniMax88,0 %23 décembre 2025Auto-déclaré
5Qwen3.5-397B-A17BQwen87,8 %16 février 2026Auto-déclaré
6DeepSeek-V4-Pro-MaxDeepSeek87,5 %23 avril 2026Auto-déclaré
7Kimi K2.5Moonshot AI87,1 %27 janvier 2026Auto-déclaré
8ERNIE 5.0Baidu87,0 %22 janvier 2026Auto-déclaré
9Nemotron 3 Ultra (550B A55B)NVIDIA86,8 %4 juin 2026Auto-déclaré
10Qwen3.5-122B-A10BQwen86,7 %24 février 2026Auto-déclaré
11DeepSeek-V4-Flash-MaxDeepSeek86,2 %23 avril 2026Auto-déclaré
12Qwen3.6-27BQwen86,2 %21 avril 2026Auto-déclaré
13Qwen3.5-27BQwen86,1 %24 février 2026Auto-déclaré
14Qwen3.5-35B-A3BQwen85,3 %24 février 2026Auto-déclaré
15Gemma 4 31BGoogle85,2 %2 avril 2026Auto-déclaré
16Qwen3.6-35B-A3BQwen85,2 %16 avril 2026Auto-déclaré
17DeepSeek-R1-0528DeepSeek85,0 %28 mai 2025Auto-déclaré
18DeepSeek-V3.2DeepSeek85,0 %1 décembre 2025Auto-déclaré
19DeepSeek-V3.2 (Thinking)DeepSeek85,0 %1 décembre 2025Auto-déclaré
20DeepSeek-V3.2-ExpDeepSeek85,0 %29 septembre 2025Auto-déclaré

Classement établi sur 125 modèles évalués, dont 100 de grands éditeurs. Score médian de l'ensemble : 77,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU-Pro indique une forte capacité à traiter des questions de connaissance et de raisonnement dans un cadre multitâche, avec une difficulté renforcée par les QCM à 10 choix. Le meilleur résultat recensé dans la base, Qwen3.7 Max à 90 %, se situe nettement au-dessus de la médiane de 77 %, ce qui suggère que le benchmark conserve un pouvoir de différenciation entre modèles évalués.

  • Rigueur : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les lire comme des résultats indicatifs plutôt que comme des mesures entièrement homogènes et indépendamment vérifiées.
  • Limites : le caractère public du jeu peut accroître le risque de contamination des données d’entraînement. La portée reste celle d’un benchmark en anglais, centré sur des QCM, donc imparfait pour évaluer des usages interactifs, multilingues ou ouverts.
  • Classement : l’écart entre la médiane et le meilleur score met en évidence une hiérarchie marquée, mais ne suffit pas à résumer la qualité globale d’un modèle hors de ce cadre d’évaluation.

Sources des scores : llm-stats.