R语言LASSO特征选择、决策树CART算法和CHAID算法电商网站购物行为预测分析

简介: R语言LASSO特征选择、决策树CART算法和CHAID算法电商网站购物行为预测分析

全文链接:http://tecdat.cn/?p=32275


本文通过分析电子商务平台的用户购物行为,帮助客户构建了一个基于决策树模型的用户购物行为预测分析模型点击文末“阅读原文”获取完整代码数据


该模型可以帮助企业预测用户的购物意愿、购物频率及购买金额等重要指标,为企业制定更有针对性的营销策略提供参考。


数据来源和处理


本研究所使用的数据来自某电子商务平台的用户购物历史记录。


读取数据


head(data)


模型构建


在本文中,我们选择了决策树和LASSO模型作为分析工具。决策树是一种常见的机器学习算法,它能够根据数据的特征变量将数据分成不同的类别,并找到最佳的划分方式。LASSO模型通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。


决策树


df2$Is_Buy_30


变量类型设置


df2$Is_Buy_30 =as.factor(df2$Is_Buy_30 )  
df2$T_weekday =as.factor(df2$T_weekday)  
df2$T_hour=as.numeric(df2$T_hour)  
df2$city_tier=as.numeric(df2$city_tier)


设置权重


df2$weight[df2$Is_Buy_30==1]=7
df2$weight[df2$Is_Buy_30==0]=4


建立决策树:是否购买


result=list(0)  
CARTmodelfunc=function(model){  
  CARTmodel = rpart(model, data=df2 , method="class",weights = df2$weig
## 绘制决策树  
## 输出决策树cp值
  
  
  prune(CARTmodel, cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"])  #剪枝  
   
  CARTmodel2 <- prune(CARTmodel, cp=cp); #对树进行剪枝
  
  #对数据进行预测  
   
   
  set.seed(1)  
  #获得训练集  
  df2.train <- df2[train, ]  
  #测试集  
  df2.test <- df2[-train, ]  
  #预测数据  
  tree.pred= (predict(CARTmodel2,df2.test ,type = "class"))
  
  
  confusionmatrix=table(tree.pred,df2.test$Is_Buy_30),#得到训练集混淆矩阵
  
  
  MSE=mean((as.numeric(tree.pred) - as.numeric(df2.test$Is_Buy_30))^


使用lasso算法进行筛选变量


#获得训练集
train <- sample(1:nrow(df2), nrow(df2)*0.8)
t)]), alpha = 1)  
plot(cv.lasso)

点击标题查阅往期内容


PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像


01

02

03

04


coef(cv.lasso,s="lambda.1se")

根据lasso筛选出最优的变量


chaid 树


ctreemodelfucntion=function(modelformula){  
  index=sample(1:nrow(df2),nrow(df2)*0.6)  
  df2.train=df2[index,]  
  df2.test=df2[index,]
  
  
  confusionmatrix=table(tree.pred2,df2.test$Is_Buy_30)#得到训练集混淆矩阵
  
  
  #预测为1类的正确率  
    presicion=tab[2,2]/sum(tab[,2]),  
    # [1] 0.3993589  
    #预测为1类的召回率  
    recall=tab[2,2]/sum(tab[2,]),  
    # [1] 0.6826484  
     
    #mse  
    MSE=mean((as.numeric(tree.pred2) - as.numeric(df2.test$Is_Buy_30))^2),

chaid tree LASSO 算法


可视化树状图:


混淆矩阵

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。


将x表写进数据库里


sqlSave(channel,result2_loss22,rownames = "result2_loss22",addPK = TRUE)


CART tree LASSO 算法


绘制决策树

resultlasso2=CARTmodelfunc(modelformulalasso)

模型结果:

混淆矩阵

混淆矩阵也称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度。

resultlasso2

# 将x表写进数据库里  
sqlSave(channel,result_rfm,rownames = "result_rfm",addPK = TRUE)
相关文章
|
2天前
|
机器学习/深度学习 存储 算法
用kNN算法诊断乳腺癌--基于R语言
用kNN算法诊断乳腺癌--基于R语言
|
2天前
|
算法 项目管理
R语言实现蒙特卡洛模拟算法
R语言实现蒙特卡洛模拟算法
|
2天前
|
算法 搜索推荐
R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例
R语言混合SVD模型IBCF协同过滤推荐算法研究——以母婴购物平台为例
|
2天前
|
机器学习/深度学习 数据可视化
R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析
R语言lasso协变量改进Logistic逻辑回归对特发性黄斑前膜因素交叉验证可视化分析
|
2天前
|
机器学习/深度学习 数据可视化 数据挖掘
R语言软件对房屋价格预测:回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化|数据分享
R语言软件对房屋价格预测:回归、LASSO、决策树、随机森林、GBM、神经网络和SVM可视化|数据分享
|
2天前
|
存储 机器学习/深度学习 算法
R语言贝叶斯Metropolis-Hastings采样 MCMC算法理解和应用可视化案例
R语言贝叶斯Metropolis-Hastings采样 MCMC算法理解和应用可视化案例
|
2天前
|
数据可视化
R语言lasso惩罚稀疏加法(相加)模型SPAM拟合非线性数据和可视化
R语言lasso惩罚稀疏加法(相加)模型SPAM拟合非线性数据和可视化
|
2天前
|
算法 数据可视化 数据挖掘
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
|
2天前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
2天前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为

热门文章

最新文章