MiniMax M2.1
MiniMax M2.1 est un LLM open-weights de MiniMax, publié le 23 décembre 2025 sous licence MIT avec usage commercial autorisé. Originaire de Chine, il combine 230 milliards de paramètres avec une fenêtre de contexte de 1 000 000 tokens, un format adapté aux corpus longs et aux tâches…
MiniMax M2.1 est un LLM open-weights de MiniMax, publié le 23 décembre 2025 sous licence MIT avec usage commercial autorisé. Originaire de Chine, il combine 230 milliards de paramètres avec une fenêtre de contexte de 1 000 000 tokens, un format adapté aux corpus longs et aux tâches nécessitant beaucoup de documents en entrée.
Son positionnement principal est économique : son prix annoncé se situe 85% sous la moyenne des LLM similaires et environ 16.7 fois sous celui des modèles frontière. À sa sortie, MiniMax M2.1 se plaçait dans le top 21% des LLM de sa génération sur GPQA, ce qui le situe dans le haut du panier de son époque.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | MiniMax |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 23 décembre 2025 |
| Multimodal | non |
| Paramètres | 230 milliards |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 94,0 % | 61ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 90,0 % | 145ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 89,0 % | 114ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 54,0 % | 162ᵉ / 252 | benchable | ✅ Mesuré |
| MMLU-Pro | 88,0 % | 4ᵉ / 125 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 87,0 % | 16ᵉ / 34 | llm-stats | Auto-déclaré |
| AIME 2025 | 81,0 % | 64ᵉ / 108 | llm-stats | Auto-déclaré |
| GPQA | 81,0 % | 68ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 78,0 % | 14ᵉ / 72 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 72,5 % | 12ᵉ / 32 | llm-stats | Auto-déclaré |
| IFBench | 70,0 % | 16ᵉ / 27 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 67,0 % | 67ᵉ / 100 | llm-stats | Auto-déclaré |
| AA-LCR | 62,0 % | 9ᵉ / 14 | llm-stats | Auto-déclaré |
| BrowseComp | 62,0 % | 26ᵉ / 51 | llm-stats | Auto-déclaré |
| Multi-SWE-Bench | 49,4 % | 3ᵉ / 6 | llm-stats | Auto-déclaré |
| Terminal-Bench | 47,9 % | 2ᵉ / 25 | llm-stats | Auto-déclaré |
| Toolathlon | 43,5 % | 14ᵉ / 23 | llm-stats | Auto-déclaré |
| SciCode | 39,0 % | 12ᵉ / 18 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 22,0 % | 50ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Email Classification (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| AtlasCloud | 0,29 $ | 0,95 $ | 0,03 $ |
| minimax | 0,3 $ | 1,2 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,11 $ |
| Latence moyenne par benchmark — Benchable | 21 min 46 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | China |
Notre analyse
Forces. MiniMax M2.1 ressort surtout sur les tâches structurées et applicatives : Email Classification figure parmi ses meilleurs résultats, et Coding le place dans un groupe compétitif pour la génération ou l’analyse de code. General Knowledge atteint aussi un niveau très élevé dans Benchable, ce qui indique une bonne couverture factuelle générale dans ce protocole. La combinaison de la licence MIT, de l’usage commercial autorisé et d’un tarif très inférieur aux modèles haut de gamme renforce son intérêt pour les déploiements où le coût par token compte autant que la performance brute. Sa fenêtre de 1 000 000 tokens est un atout distinctif pour traiter de longs historiques, bases documentaires ou lots de fichiers sans découpage excessif.
Limites et points d'attention. Les résultats en Reasoning restent solides mais moins dominants que ses scores en classification et en connaissance générale. Le benchmark Hallucinations apparaît comme le point le plus fragile relativement à son classement, ce qui impose des garde-fous pour les réponses factuelles sensibles. Ethics est élevé en score brut mais moins bien classé, signalant que le modèle n’est pas particulièrement différenciant sur ce terrain. Les données disponibles reposent sur 4 sources concordantes, mais elles ne décrivent pas de capacité multimodale, d’entraînement ou d’outillage agentique. Il vise surtout les usages texte à grand contexte, le code et la classification à coût maîtrisé.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).