MMLU-Pro
MMLU-Pro est un benchmark de compréhension multitâche conçu par TIGER AI Lab pour évaluer des modèles de langage sur des questions à choix multiples plus exigeantes que celles de MMLU. Il met l’accent sur le raisonnement dans des domaines variés, avec des items filtrés pour réduire les…
MMLU-Pro est un benchmark de compréhension multitâche conçu par TIGER AI Lab pour évaluer des modèles de langage sur des questions à choix multiples plus exigeantes que celles de MMLU. Il met l’accent sur le raisonnement dans des domaines variés, avec des items filtrés pour réduire les questions triviales.
Son rôle est de fournir un test plus robuste lorsque les performances sur MMLU deviennent moins discriminantes. En élargissant le nombre de réponses possibles et en privilégiant des tâches intensives en raisonnement, MMLU-Pro cherche à mieux distinguer les capacités réelles des modèles généralistes.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | TIGER AI Lab |
| Capacités mesurées | finance, généraliste, santé, langage, juridique, mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | QCM à 10 choix |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | environ 12 000 questions |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 89,6 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.6 Plus | Qwen | 88,5 % | 31 mars 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 88,5 % | 31 mai 2026 | Auto-déclaré |
| 4 | MiniMax M2.1 | MiniMax | 88,0 % | 23 décembre 2025 | Auto-déclaré |
| 5 | Qwen3.5-397B-A17B | Qwen | 87,8 % | 16 février 2026 | Auto-déclaré |
| 6 | DeepSeek-V4-Pro-Max | DeepSeek | 87,5 % | 23 avril 2026 | Auto-déclaré |
| 7 | Kimi K2.5 | Moonshot AI | 87,1 % | 27 janvier 2026 | Auto-déclaré |
| 8 | ERNIE 5.0 | Baidu | 87,0 % | 22 janvier 2026 | Auto-déclaré |
| 9 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 86,8 % | 4 juin 2026 | Auto-déclaré |
| 10 | Qwen3.5-122B-A10B | Qwen | 86,7 % | 24 février 2026 | Auto-déclaré |
| 11 | DeepSeek-V4-Flash-Max | DeepSeek | 86,2 % | 23 avril 2026 | Auto-déclaré |
| 12 | Qwen3.6-27B | Qwen | 86,2 % | 21 avril 2026 | Auto-déclaré |
| 13 | Qwen3.5-27B | Qwen | 86,1 % | 24 février 2026 | Auto-déclaré |
| 14 | Qwen3.5-35B-A3B | Qwen | 85,3 % | 24 février 2026 | Auto-déclaré |
| 15 | Gemma 4 31B | 85,2 % | 2 avril 2026 | Auto-déclaré | |
| 16 | Qwen3.6-35B-A3B | Qwen | 85,2 % | 16 avril 2026 | Auto-déclaré |
| 17 | DeepSeek-R1-0528 | DeepSeek | 85,0 % | 28 mai 2025 | Auto-déclaré |
| 18 | DeepSeek-V3.2 | DeepSeek | 85,0 % | 1 décembre 2025 | Auto-déclaré |
| 19 | DeepSeek-V3.2 (Thinking) | DeepSeek | 85,0 % | 1 décembre 2025 | Auto-déclaré |
| 20 | DeepSeek-V3.2-Exp | DeepSeek | 85,0 % | 29 septembre 2025 | Auto-déclaré |
Classement établi sur 125 modèles évalués, dont 100 de grands éditeurs. Score médian de l'ensemble : 77,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MMLU-Pro indique une forte capacité à traiter des questions de connaissance et de raisonnement dans un cadre multitâche, avec une difficulté renforcée par les QCM à 10 choix. Le meilleur résultat recensé dans la base, Qwen3.7 Max à 90 %, se situe nettement au-dessus de la médiane de 77 %, ce qui suggère que le benchmark conserve un pouvoir de différenciation entre modèles évalués.
- Rigueur : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les lire comme des résultats indicatifs plutôt que comme des mesures entièrement homogènes et indépendamment vérifiées.
- Limites : le caractère public du jeu peut accroître le risque de contamination des données d’entraînement. La portée reste celle d’un benchmark en anglais, centré sur des QCM, donc imparfait pour évaluer des usages interactifs, multilingues ou ouverts.
- Classement : l’écart entre la médiane et le meilleur score met en évidence une hiérarchie marquée, mais ne suffit pas à résumer la qualité globale d’un modèle hors de ce cadre d’évaluation.
Sources des scores : llm-stats.