Mathématiques

MMLU-Pro

MMLU-Pro est un benchmark de compréhension multitâche conçu par TIGER AI Lab pour évaluer des modèles de langage sur des questions à choix multiples plus exigeantes que celles de MMLU. Il met l’accent sur le raisonnement dans des domaines variés, avec des items filtrés pour réduire les…

Son rôle est de fournir un test plus robuste lorsque les performances sur MMLU deviennent moins discriminantes. En élargissant le nombre de réponses possibles et en privilégiant des tâches intensives en raisonnement, MMLU-Pro cherche à mieux distinguer les capacités réelles des modèles généralistes.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	TIGER AI Lab
Capacités mesurées	finance, généraliste, santé, langage, juridique, mathématiques, raisonnement
Modalité	Texte
Type de questions	QCM à 10 choix
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais
Taille du jeu	environ 12 000 questions
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	89,6 %	19 mai 2026	Auto-déclaré
2	Qwen3.6 Plus	Qwen	88,5 %	31 mars 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	88,5 %	31 mai 2026	Auto-déclaré
4	MiniMax M2.1	MiniMax	88,0 %	23 décembre 2025	Auto-déclaré
5	Qwen3.5-397B-A17B	Qwen	87,8 %	16 février 2026	Auto-déclaré
6	DeepSeek-V4-Pro-Max	DeepSeek	87,5 %	23 avril 2026	Auto-déclaré
7	Kimi K2.5	Moonshot AI	87,1 %	27 janvier 2026	Auto-déclaré
8	ERNIE 5.0	Baidu	87,0 %	22 janvier 2026	Auto-déclaré
9	Nemotron 3 Ultra (550B A55B)	NVIDIA	86,8 %	4 juin 2026	Auto-déclaré
10	Qwen3.5-122B-A10B	Qwen	86,7 %	24 février 2026	Auto-déclaré
11	DeepSeek-V4-Flash-Max	DeepSeek	86,2 %	23 avril 2026	Auto-déclaré
12	Qwen3.6-27B	Qwen	86,2 %	21 avril 2026	Auto-déclaré
13	Qwen3.5-27B	Qwen	86,1 %	24 février 2026	Auto-déclaré
14	Qwen3.5-35B-A3B	Qwen	85,3 %	24 février 2026	Auto-déclaré
15	Gemma 4 31B	Google	85,2 %	2 avril 2026	Auto-déclaré
16	Qwen3.6-35B-A3B	Qwen	85,2 %	16 avril 2026	Auto-déclaré
17	DeepSeek-R1-0528	DeepSeek	85,0 %	28 mai 2025	Auto-déclaré
18	DeepSeek-V3.2	DeepSeek	85,0 %	1 décembre 2025	Auto-déclaré
19	DeepSeek-V3.2 (Thinking)	DeepSeek	85,0 %	1 décembre 2025	Auto-déclaré
20	DeepSeek-V3.2-Exp	DeepSeek	85,0 %	29 septembre 2025	Auto-déclaré

Classement établi sur 125 modèles évalués, dont 100 de grands éditeurs. Score médian de l'ensemble : 77,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MMLU-Pro indique une forte capacité à traiter des questions de connaissance et de raisonnement dans un cadre multitâche, avec une difficulté renforcée par les QCM à 10 choix. Le meilleur résultat recensé dans la base, Qwen3.7 Max à 90 %, se situe nettement au-dessus de la médiane de 77 %, ce qui suggère que le benchmark conserve un pouvoir de différenciation entre modèles évalués.

Rigueur : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui impose de les lire comme des résultats indicatifs plutôt que comme des mesures entièrement homogènes et indépendamment vérifiées.
Limites : le caractère public du jeu peut accroître le risque de contamination des données d’entraînement. La portée reste celle d’un benchmark en anglais, centré sur des QCM, donc imparfait pour évaluer des usages interactifs, multilingues ou ouverts.
Classement : l’écart entre la médiane et le meilleur score met en évidence une hiérarchie marquée, mais ne suffit pas à résumer la qualité globale d’un modèle hors de ce cadre d’évaluation.

Sources des scores : llm-stats.

MMLU-Pro

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench