R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

2024-04-28 279

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

用户获取和流失是一对相对概念，就好比一个水池，有进口，也有出口。我们不能只关心进口的进水速率，却忽略了出水口的出水速率。挽留一个老用户相比拉动一个新用户，在增加营业收入、产品周期维护方面都是有好处的。并且获得一个新用户的成本是留存一个老用户的5~6倍。

我们最近有一个很棒的机会与一位伟大的客户合作，要求构建一个适合他们需求的用户流失预测算法。本课题着眼于利用决策树算法和随机森林模型，对用户进行预测，判断哪些客户会流失。数据的处理方法以及机器学习本身算法理论的学习和代码实现在各领域具有相同性，之后同学可以在其他感兴趣的领域结合数据进行分析，利用此课题所学知识举一反三。

数据

查看可用数据源

用户名密码登陆

channel <- odbcConnect("sa", uid="sa", pwd="12345")

品牌表

data<-sqlQuery(channel,"select * from  DataMeet1$")
 
head(data)

input:品牌品牌奶粉阶段（对应小孩年龄）城市等级（1,2,3线城市）

Output

用户寿命（天）是否流失

head(data)

转换数据，拟合决策树模型

建立决策树预测是否流失

CARTmodel = rpart
draw.tree(CARTmodel)

点击标题查阅往期内容

数据分享|R语言决策树和随机森林分类电信公司用户流失churn数据和参数调优、ROC曲线可视化

绘制决策树

输出决策树cp值

printcp(CARTmodel)

根据cp值对决策树进行剪枝

cp= CARTmodel$cptable[which.min(CARTmodel$cptable[,"xerror"]),"CP"]
cp
prune(CARTmodel, cp= CARTmodel$cpCP"])  #剪枝

CARTmodel2 <- prune(CARTmo

对数据进行预测

(predict(CARTmodel2,datanew.test ))
summary(CARTmodel2)

计算混淆矩阵和准确度

tab=table(tree.pred,datanew.test$是否流失)#得到训练集混淆矩阵
(tab[1,1]+tab[2,2])/sum(tab)

mse

mean((as.numeric(tree.pred) - as.numeric(datanew.test$是否流失))^2)

输出结果

CARTmodel2

将表写进数据库里
sqlSave(channel,result_lossnew11,

变量重要程度

CARTmodel$varmportance

预测用户寿命.天.

CARTmodel = rpart(用户寿命.天. ~

绘制决策树

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。

输出决策树cp值

根据cp值对决策树进行剪枝

prune(CARTmodel, cp= CARTmodel$cptab

prune(CARTmodel

进行预测

predict(CARTmodel

输出结果

#mse
mean((as.numeric(tree.pred) - as.numeric(datanew.test$用户寿命.天.))^2)

## [1] 7713.91

变量重要程度

随机森林

随机森林是属于集成学习，其核心思想就是集成多个弱分类器以达到三个臭皮匠赛过诸葛亮的效果。

rf <- randomForest(datanew.train$用户寿命.天.  ~

MSE误差

mean(predict(rf)- datanew.train$用户寿命.天.  )^2

## [1] 0.007107568

变量重要程度

plot(d,center=TRUE,leaflab='none',

混淆矩阵

table(predict(rf), datanew.train$是否流失  )

##    
##       0   1
##   0  84  15
##   1  23 589

#变量重要程度
importance(rf)

chaid树

CHAID是一种高效的统计分箱技术，是商业上运用最成功的算法之一。通过统计检验方法，CHAID评估潜在预测变量的所有取值，合并对目标变量而言在统计意义上同质的取值成为一个分箱，保留那些有异质性的取值为单独的分箱，然后选择最佳的预测，成为决策树的第一个分支，因此每一个子节点都是同质的，此过程继续递推直至完成整个决策树。

plot(ct, mai

ctree

是否流失

plot(ct,

混淆矩阵

table(predict(ct), datanew.train$是否流失)

##    
##       0   1
##   0  89   1
##   1  18 603

预测类别概率

tr.pred = predict(ct, newdata=datanew.train, type="prob")
tr.pred

将结果表写进数据库里
sqlSave(channel,resul

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

数据

用户名密码登陆

品牌表

input:品牌品牌奶粉阶段（对应小孩年龄）城市等级（1,2,3线城市）

Output

用户寿命（天）是否流失

转换数据，拟合决策树模型

建立决策树预测是否流失

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

对数据进行预测

计算混淆矩阵和准确度

mse

输出结果

变量重要程度

预测用户寿命.天.

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

进行预测

输出结果

变量重要程度

随机森林

MSE误差

变量重要程度

混淆矩阵

chaid树

ctree

混淆矩阵

预测类别概率

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

R语言CART决策树、随机森林、chaid树预测母婴电商平台用户寿命、流失可视化

数据

用户名密码登陆

品牌表

input:品牌 品牌 奶粉阶段（对应小孩年龄） 城市等级（1,2,3线城市）

Output

用户寿命（天） 是否流失

转换数据，拟合决策树模型

建立决策树预测是否流失

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

对数据进行预测

计算混淆矩阵和准确度

mse

输出结果

变量重要程度

预测用户寿命.天.

绘制决策树

输出决策树cp值

根据cp值对决策树进行剪枝

进行预测

输出结果

变量重要程度

随机森林

MSE误差

变量重要程度

混淆矩阵

chaid树

ctree

混淆矩阵

预测类别概率

热门文章

最新文章

相关课程

相关电子书

input:品牌品牌奶粉阶段（对应小孩年龄）城市等级（1,2,3线城市）

用户寿命（天）是否流失