MiniMax M3

MiniMax M3 est un LLM open-weights de MiniMax, publié le 1 juin 2026 sous licence MIT, avec usage commercial autorisé. Le modèle combine 23 milliards de paramètres actifs avec une fenêtre de contexte d’environ 1,0 M tokens, un format adapté aux corpus longs, aux bases documentaires…

MiniMax M3 est un LLM open-weights de MiniMax, publié le 1 juin 2026 sous licence MIT, avec usage commercial autorisé. Le modèle combine 23 milliards de paramètres actifs avec une fenêtre de contexte d’environ 1,0 M tokens, un format adapté aux corpus longs, aux bases documentaires volumineuses et aux workflows nécessitant beaucoup d’historique.

Son positionnement est surtout celui d’un modèle très économique : son tarif est annoncé 85% sous la moyenne des LLM similaires et environ 16,1 fois inférieur à celui des modèles frontière. À sa sortie, MiniMax M3 se situait dans le top 9% de sa génération sur SWE-Bench Verified, ce qui le place parmi les modèles de code notables de sa période.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMiniMax
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie1 juin 2026
Multimodaloui
Paramètres actifs23 milliards
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index44.49ᵉ / 136
Code Index58.616ᵉ / 50
Agentic Index35.49ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
LiveBench: Mathematics76,9 %45ᵉ / 76livebench✅ Mesuré
LiveBench: Language76,8 %22ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis76,2 %10ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning74,5 %32ᵉ / 76livebench✅ Mesuré
LiveBench: Global average70,0 %26ᵉ / 76livebench✅ Mesuré
LiveBench: Coding68,2 %53ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)66,0 %110ᵉ / 252benchable✅ Mesuré
LiveBench: Agentic Coding60,0 %7ᵉ / 76livebench✅ Mesuré
LiveBench: IF57,5 %38ᵉ / 76livebench✅ Mesuré
OmniDocBench 1.591,6 %1ᵉ / 13llm-statsAuto-déclaré
SpreadSheetBench-v189,3 %1ᵉ / 3llm-statsAuto-déclaré
Video-MME85,4 %6ᵉ / 17llm-statsAuto-déclaré
VideoMMMU84,6 %7ᵉ / 26llm-statsAuto-déclaré
BrowseComp83,5 %10ᵉ / 51llm-statsAuto-déclaré
SWE-Bench Verified80,5 %9ᵉ / 100llm-statsAuto-déclaré
MMMU-Pro78,1 %16ᵉ / 60llm-statsAuto-déclaré
Claw-Eval74,5 %3ᵉ / 12llm-statsAuto-déclaré
MCP Atlas74,2 %10ᵉ / 27llm-statsAuto-déclaré
OSWorld-Verified70,1 %11ᵉ / 17llm-statsAuto-déclaré
LiveBench70,0 %31ᵉ / 38llm-statsn.d.
Terminal-Bench 2.166,0 %5ᵉ / 6llm-statsAuto-déclaré
SWE-Bench Pro59,0 %7ᵉ / 34llm-statsAuto-déclaré
Finance Agent v248,3 %8ᵉ / 25llm-statsn.d.
GDPval-AA47,7 %5ᵉ / 33llm-statsn.d.
OfficeQA Pro45,1 %5ᵉ / 5llm-statsAuto-déclaré
NL2Repo42,1 %6ᵉ / 11llm-statsAuto-déclaré
PostTrainBench37,1 %1ᵉ / 4llm-statsAuto-déclaré
APEX-Agents27,7 %5ᵉ / 5llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Qwen3.7 Max46.0
▶ MiniMax M344.4

Code Index

▶ MiniMax M358.6
Grok Build 0.1 061651.5

Classements Arena (Elo)

CatégorieEloRang
Arena Code150515ᵉ
Arena Text144751ᵉ
Arena Document143817ᵉ
Arena Vision124233ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
fireworks0,3 $1,2 $n.d.
MiniMax0,3 $1,2 $0,06 $
minimax0,6 $2,4 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,07 $
Latence moyenne par benchmark — Benchable22 min 26 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. MiniMax M3 se distingue par un bon équilibre entre coût, ouverture et performances. Son Intelligence Index et son Agentic Index le placent dans le top 10, ce qui signale une capacité solide sur les tâches générales et les usages orientés agents. Le Code Index, l’Arena code et le classement sur SWE-Bench Verified indiquent un profil particulièrement pertinent pour le développement logiciel, avec un niveau élevé à sa sortie parmi les LLM de même génération. Les résultats Benchable Baseline sont élevés sur le raisonnement, le codage, la classification d’e-mails, les hallucinations et les connaissances générales. La très grande fenêtre de contexte renforce l’intérêt pour l’analyse de documents longs, la recherche dans de grands historiques et les chaînes de traitement nécessitant beaucoup de contexte.

Limites et points d’attention. MiniMax M3 n’apparaît pas comme un leader homogène sur tous les usages : son Arena text est nettement moins bien classé que ses résultats en code et en document, et certains benchmarks Benchable affichent de bons scores absolus tout en restant plus moyens en rang relatif, notamment Ethics et General Knowledge. Le modèle doit donc être évalué sur des cas d’usage concrets, surtout pour la production rédactionnelle généraliste ou les tâches sensibles. Sa licence MIT et son prix très bas en font surtout un candidat pour des déploiements à coût maîtrisé, avec poids ouverts, contexte massif et besoin marqué en code ou en traitement documentaire.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).