MiniMax M2

MiniMax M2 est un LLM de MiniMax, publié le 27 octobre 2025 sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle combine une très grande fenêtre de contexte, 1 000 000 tokens, avec une taille élevée de 230 milliards de paramètres, ce qui le place parmi les modèles…

MiniMax M2 est un LLM de MiniMax, publié le 27 octobre 2025 sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle combine une très grande fenêtre de contexte, 1 000 000 tokens, avec une taille élevée de 230 milliards de paramètres, ce qui le place parmi les modèles ouverts conçus pour traiter de longs volumes de texte.

Son positionnement se distingue surtout par le coût: les tarifs annoncés sont très inférieurs à ceux des LLM similaires et environ 19 fois plus bas que les modèles frontière. À sa sortie, MiniMax M2 se situait dans le top 24% des LLM de sa génération sur GPQA, d’après cinq sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMiniMax
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie27 octobre 2025
Multimodalnon
Paramètres230 milliards
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)99,0 %113ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)93,9 %53ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)84,0 %139ᵉ / 217benchable✅ Mesuré
Benchable : Hallucinations (Baseline)80,0 %178ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)11,6 %221ᵉ / 252benchable✅ Mesuré
Tau2 Telecom87,0 %16ᵉ / 34llm-statsAuto-déclaré
LiveCodeBench83,0 %5ᵉ / 72llm-statsAuto-déclaré
MMLU-Pro82,0 %38ᵉ / 125llm-statsAuto-déclaré
AIME 202578,0 %69ᵉ / 108llm-statsAuto-déclaré
GPQA78,0 %81ᵉ / 213llm-statsAuto-déclaré
Tau-bench77,2 %5ᵉ / 6llm-statsAuto-déclaré
SWE-Bench Verified69,4 %59ᵉ / 100llm-statsAuto-déclaré
AA-Index61,0 %3ᵉ / 3llm-statsAuto-déclaré
SWE-bench Multilingual56,5 %25ᵉ / 32llm-statsAuto-déclaré
BrowseComp-zh48,5 %11ᵉ / 13llm-statsAuto-déclaré
Terminal-Bench46,3 %4ᵉ / 25llm-statsAuto-déclaré
BrowseComp44,0 %43ᵉ / 51llm-statsAuto-déclaré
Multi-SWE-Bench36,2 %5ᵉ / 6llm-statsAuto-déclaré
SciCode36,0 %17ᵉ / 18llm-statsAuto-déclaré
Humanity's Last Exam12,5 %71ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ MiniMax M299 %

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ MiniMax M298 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1346183ᵉ
Arena Code130569ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
AtlasCloud0,255 $1 $0,03 $
minimax0,3 $1,2 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,1 $
Latence moyenne par benchmark — Benchable36 min 55 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysChina

Notre analyse

Forces. MiniMax M2 affiche un profil solide sur les tâches générales: General Knowledge, Ethics et Email Classification le placent à des niveaux élevés dans Benchable. Le modèle ressort aussi bien en Reasoning, où son rang est nettement meilleur que sur la plupart de ses autres évaluations, et en Coding, confirmé par un meilleur positionnement relatif dans Arena code que dans Arena text. Sa licence MIT, ses poids ouverts et l’autorisation d’usage commercial renforcent son intérêt pour des déploiements contrôlés. La fenêtre de contexte d’environ 1,0 M de tokens et le tarif très économique en font un candidat notable pour les usages où le volume de tokens pèse fortement dans le coût total.

Limites et points d'attention. Les résultats sont moins convaincants en Mathematics, où MiniMax M2 se situe davantage en milieu de tableau que dans le peloton de tête. Arena text le classe aussi assez loin, ce qui suggère une compétitivité plus limitée dans les préférences générales de sortie texte. Malgré son bon coût relatif, il ne doit pas être confondu avec un modèle frontière: son intérêt principal tient à l’équilibre entre prix, ouverture, grand contexte et performances correctes. Il convient surtout aux scénarios à fort volume, au codage et aux tâches de classification ou de raisonnement général où le budget par token reste déterminant.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).