MiniMax M2
MiniMax M2 est un LLM de MiniMax, publié le 27 octobre 2025 sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle combine une très grande fenêtre de contexte, 1 000 000 tokens, avec une taille élevée de 230 milliards de paramètres, ce qui le place parmi les modèles…
MiniMax M2 est un LLM de MiniMax, publié le 27 octobre 2025 sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle combine une très grande fenêtre de contexte, 1 000 000 tokens, avec une taille élevée de 230 milliards de paramètres, ce qui le place parmi les modèles ouverts conçus pour traiter de longs volumes de texte.
Son positionnement se distingue surtout par le coût: les tarifs annoncés sont très inférieurs à ceux des LLM similaires et environ 19 fois plus bas que les modèles frontière. À sa sortie, MiniMax M2 se situait dans le top 24% des LLM de sa génération sur GPQA, d’après cinq sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | MiniMax |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 27 octobre 2025 |
| Multimodal | non |
| Paramètres | 230 milliards |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,9 % | 53ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 84,0 % | 139ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 80,0 % | 178ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 11,6 % | 221ᵉ / 252 | benchable | ✅ Mesuré |
| Tau2 Telecom | 87,0 % | 16ᵉ / 34 | llm-stats | Auto-déclaré |
| LiveCodeBench | 83,0 % | 5ᵉ / 72 | llm-stats | Auto-déclaré |
| MMLU-Pro | 82,0 % | 38ᵉ / 125 | llm-stats | Auto-déclaré |
| AIME 2025 | 78,0 % | 69ᵉ / 108 | llm-stats | Auto-déclaré |
| GPQA | 78,0 % | 81ᵉ / 213 | llm-stats | Auto-déclaré |
| Tau-bench | 77,2 % | 5ᵉ / 6 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 69,4 % | 59ᵉ / 100 | llm-stats | Auto-déclaré |
| AA-Index | 61,0 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 56,5 % | 25ᵉ / 32 | llm-stats | Auto-déclaré |
| BrowseComp-zh | 48,5 % | 11ᵉ / 13 | llm-stats | Auto-déclaré |
| Terminal-Bench | 46,3 % | 4ᵉ / 25 | llm-stats | Auto-déclaré |
| BrowseComp | 44,0 % | 43ᵉ / 51 | llm-stats | Auto-déclaré |
| Multi-SWE-Bench | 36,2 % | 5ᵉ / 6 | llm-stats | Auto-déclaré |
| SciCode | 36,0 % | 17ᵉ / 18 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 12,5 % | 71ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Ethics (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1346 | 183ᵉ |
| Arena Code | 1305 | 69ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| AtlasCloud | 0,255 $ | 1 $ | 0,03 $ |
| minimax | 0,3 $ | 1,2 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,1 $ |
| Latence moyenne par benchmark — Benchable | 36 min 55 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | China |
Notre analyse
Forces. MiniMax M2 affiche un profil solide sur les tâches générales: General Knowledge, Ethics et Email Classification le placent à des niveaux élevés dans Benchable. Le modèle ressort aussi bien en Reasoning, où son rang est nettement meilleur que sur la plupart de ses autres évaluations, et en Coding, confirmé par un meilleur positionnement relatif dans Arena code que dans Arena text. Sa licence MIT, ses poids ouverts et l’autorisation d’usage commercial renforcent son intérêt pour des déploiements contrôlés. La fenêtre de contexte d’environ 1,0 M de tokens et le tarif très économique en font un candidat notable pour les usages où le volume de tokens pèse fortement dans le coût total.
Limites et points d'attention. Les résultats sont moins convaincants en Mathematics, où MiniMax M2 se situe davantage en milieu de tableau que dans le peloton de tête. Arena text le classe aussi assez loin, ce qui suggère une compétitivité plus limitée dans les préférences générales de sortie texte. Malgré son bon coût relatif, il ne doit pas être confondu avec un modèle frontière: son intérêt principal tient à l’équilibre entre prix, ouverture, grand contexte et performances correctes. Il convient surtout aux scénarios à fort volume, au codage et aux tâches de classification ou de raisonnement général où le budget par token reste déterminant.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).