MiniMax M2.1

MiniMax M2.1 est un LLM open-weights de MiniMax, publié le 23 décembre 2025 sous licence MIT avec usage commercial autorisé. Originaire de Chine, il combine 230 milliards de paramètres avec une fenêtre de contexte de 1 000 000 tokens, un format adapté aux corpus longs et aux tâches…

MiniMax M2.1 est un LLM open-weights de MiniMax, publié le 23 décembre 2025 sous licence MIT avec usage commercial autorisé. Originaire de Chine, il combine 230 milliards de paramètres avec une fenêtre de contexte de 1 000 000 tokens, un format adapté aux corpus longs et aux tâches nécessitant beaucoup de documents en entrée.

Son positionnement principal est économique : son prix annoncé se situe 85% sous la moyenne des LLM similaires et environ 16.7 fois sous celui des modèles frontière. À sa sortie, MiniMax M2.1 se plaçait dans le top 21% des LLM de sa génération sur GPQA, ce qui le situe dans le haut du panier de son époque.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMiniMax
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie23 décembre 2025
Multimodalnon
Paramètres230 milliards
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)94,0 %61ᵉ / 239benchable✅ Mesuré
Benchable : Hallucinations (Baseline)90,0 %145ᵉ / 229benchable✅ Mesuré
Benchable : Mathematics (Baseline)89,0 %114ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)54,0 %162ᵉ / 252benchable✅ Mesuré
MMLU-Pro88,0 %4ᵉ / 125llm-statsAuto-déclaré
Tau2 Telecom87,0 %16ᵉ / 34llm-statsAuto-déclaré
AIME 202581,0 %64ᵉ / 108llm-statsAuto-déclaré
GPQA81,0 %68ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench78,0 %14ᵉ / 72llm-statsAuto-déclaré
SWE-bench Multilingual72,5 %12ᵉ / 32llm-statsAuto-déclaré
IFBench70,0 %16ᵉ / 27llm-statsAuto-déclaré
SWE-Bench Verified67,0 %67ᵉ / 100llm-statsAuto-déclaré
AA-LCR62,0 %9ᵉ / 14llm-statsAuto-déclaré
BrowseComp62,0 %26ᵉ / 51llm-statsAuto-déclaré
Multi-SWE-Bench49,4 %3ᵉ / 6llm-statsAuto-déclaré
Terminal-Bench47,9 %2ᵉ / 25llm-statsAuto-déclaré
Toolathlon43,5 %14ᵉ / 23llm-statsAuto-déclaré
SciCode39,0 %12ᵉ / 18llm-statsAuto-déclaré
Humanity's Last Exam22,0 %50ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ MiniMax M2.1100 %

Benchable : Email Classification (Baseline)

nova-premier-v199 %
▶ MiniMax M2.199 %
WizardLM-2 8x22B95 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
AtlasCloud0,29 $0,95 $0,03 $
minimax0,3 $1,2 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,11 $
Latence moyenne par benchmark — Benchable21 min 46 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysChina

Notre analyse

Forces. MiniMax M2.1 ressort surtout sur les tâches structurées et applicatives : Email Classification figure parmi ses meilleurs résultats, et Coding le place dans un groupe compétitif pour la génération ou l’analyse de code. General Knowledge atteint aussi un niveau très élevé dans Benchable, ce qui indique une bonne couverture factuelle générale dans ce protocole. La combinaison de la licence MIT, de l’usage commercial autorisé et d’un tarif très inférieur aux modèles haut de gamme renforce son intérêt pour les déploiements où le coût par token compte autant que la performance brute. Sa fenêtre de 1 000 000 tokens est un atout distinctif pour traiter de longs historiques, bases documentaires ou lots de fichiers sans découpage excessif.

Limites et points d'attention. Les résultats en Reasoning restent solides mais moins dominants que ses scores en classification et en connaissance générale. Le benchmark Hallucinations apparaît comme le point le plus fragile relativement à son classement, ce qui impose des garde-fous pour les réponses factuelles sensibles. Ethics est élevé en score brut mais moins bien classé, signalant que le modèle n’est pas particulièrement différenciant sur ce terrain. Les données disponibles reposent sur 4 sources concordantes, mais elles ne décrivent pas de capacité multimodale, d’entraînement ou d’outillage agentique. Il vise surtout les usages texte à grand contexte, le code et la classification à coût maîtrisé.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).