MiniMax

MiniMax M2.1

MiniMax M2.1 est un LLM open-weights de MiniMax, publié le 23 décembre 2025 sous licence MIT avec usage commercial autorisé. Originaire de Chine, il combine 230 milliards de paramètres avec une fenêtre de contexte de 1 000 000 tokens, un format adapté aux corpus longs et aux tâches…

Son positionnement principal est économique : son prix annoncé se situe 85% sous la moyenne des LLM similaires et environ 16.7 fois sous celui des modèles frontière. À sa sortie, MiniMax M2.1 se plaçait dans le top 21% des LLM de sa génération sur GPQA, ce qui le situe dans le haut du panier de son époque.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	MiniMax
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	23 décembre 2025
Multimodal	non
Paramètres	230 milliards
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	94,0 %	61ᵉ / 239	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	90,0 %	145ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	89,0 %	114ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	54,0 %	162ᵉ / 252	benchable	✅ Mesuré
MMLU-Pro	88,0 %	4ᵉ / 125	llm-stats	Auto-déclaré
Tau2 Telecom	87,0 %	16ᵉ / 34	llm-stats	Auto-déclaré
AIME 2025	81,0 %	64ᵉ / 108	llm-stats	Auto-déclaré
GPQA	81,0 %	68ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	78,0 %	14ᵉ / 72	llm-stats	Auto-déclaré
SWE-bench Multilingual	72,5 %	12ᵉ / 32	llm-stats	Auto-déclaré
IFBench	70,0 %	16ᵉ / 27	llm-stats	Auto-déclaré
SWE-Bench Verified	67,0 %	67ᵉ / 100	llm-stats	Auto-déclaré
AA-LCR	62,0 %	9ᵉ / 14	llm-stats	Auto-déclaré
BrowseComp	62,0 %	26ᵉ / 51	llm-stats	Auto-déclaré
Multi-SWE-Bench	49,4 %	3ᵉ / 6	llm-stats	Auto-déclaré
Terminal-Bench	47,9 %	2ᵉ / 25	llm-stats	Auto-déclaré
Toolathlon	43,5 %	14ᵉ / 23	llm-stats	Auto-déclaré
SciCode	39,0 %	12ᵉ / 18	llm-stats	Auto-déclaré
Humanity's Last Exam	22,0 %	50ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ MiniMax M2.1100 %

Llama 3.3 70B Instruct98 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ MiniMax M2.199 %

WizardLM-2 8x22B95 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
AtlasCloud	0,29 $	0,95 $	0,03 $
minimax	0,3 $	1,2 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,11 $
Latence moyenne par benchmark — Benchable	21 min 46 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	China

Notre analyse

Forces. MiniMax M2.1 ressort surtout sur les tâches structurées et applicatives : Email Classification figure parmi ses meilleurs résultats, et Coding le place dans un groupe compétitif pour la génération ou l’analyse de code. General Knowledge atteint aussi un niveau très élevé dans Benchable, ce qui indique une bonne couverture factuelle générale dans ce protocole. La combinaison de la licence MIT, de l’usage commercial autorisé et d’un tarif très inférieur aux modèles haut de gamme renforce son intérêt pour les déploiements où le coût par token compte autant que la performance brute. Sa fenêtre de 1 000 000 tokens est un atout distinctif pour traiter de longs historiques, bases documentaires ou lots de fichiers sans découpage excessif.

Limites et points d'attention. Les résultats en Reasoning restent solides mais moins dominants que ses scores en classification et en connaissance générale. Le benchmark Hallucinations apparaît comme le point le plus fragile relativement à son classement, ce qui impose des garde-fous pour les réponses factuelles sensibles. Ethics est élevé en score brut mais moins bien classé, signalant que le modèle n’est pas particulièrement différenciant sur ce terrain. Les données disponibles reposent sur 4 sources concordantes, mais elles ne décrivent pas de capacité multimodale, d’entraînement ou d’outillage agentique. Il vise surtout les usages texte à grand contexte, le code et la classification à coût maîtrisé.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

MiniMax M2.1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast