通过对某移动通信公司客户的流失数据分析,了解客户流失规律,建立流失预警系统,为客户关系管理服务(点击文末“阅读原文”获取完整代码数据)。
相关视频
数据介绍
某年度随机抽取的 1000 个移动通信客户。因变量是他们来年的流失行为(0= 未流失,1=流失)。为了能够预测客户的未来行为,我们采集了下面这些来自当年的指标:客户等级(区分 VIP 客户等级):1,2,3,4;主叫次数(%):7 日内日均 主叫次数/90 日内日均主叫次数;被叫次数(%):7 日内日均被叫次数/90 日内 日均通话时长;费用(%):7 日内日均通话费用/90 日内日均通话费用。该数据 存放在 csv 文件 mobile.csv 中。
某移动通信公司客户的流失数据:
移动通信行业的现有企业中,一般情况下客户月流失率在3%左右,如果静态计算,则所有客户会在 2 - 3 年内全部流失。 在降低客户流失率方面,哪怕仅仅降低 1 %就意味着你至少可以有百万元的收入增长!客户是一个公司最宝贵的财富,因此保持客户并增长客户就是头等重要的事情,同是又是很困难的一项任务。
因此本文试图通过逻辑回归模型来帮助客户对某移动通信公司客户的流失数据分析,了解客户流失规律,建立流失预警系统,为客户关系管理服务。
读取数据,并且查看数据概况
绘制变量之间的散点图
从上面的图中,我们可以看到各个变量之间的相关关系,其中主叫次数和被叫次数呈正相关关系,通话时长和费用也成正相关关系。
然后绘制各个自变量和因变量(流失)的关系散点图,可以看到他们之间关系不是十分明显,从次数和流失的散点图来看,可能有正相关的关系,因此进行逻辑回归模型的分析。
划分训练集
split <- sample(1:nrow(data),nrow(data)*(2/3))
建立逻辑回归模型
效应的显著性检验
优势比解释
则客户等级每增加1个单位,客户流失的估计值变为exp(-0.4311)= 0.6497939,因此,客户等级越高,客户流失越低
则主叫次数 每增加1个单位,客户流失的估计值变为exp( -0.6579)= 0.5179379,因此,主叫次数越高,客户流失越低
则被叫次数 每增加1个单位,客户流失的估计值变为exp(-2.4936)= 0.08261203,因此,被叫次数 越高,客户流失越低
Logistics逻辑回归拟合的解释
从输出结果可以看出 ,回归方程为流失= 2.7885 -0.5801客户等级-0.6756主叫次数 -2.6843被叫次数-0.5125通话时长+0.7565费用,变量和的统计量的估计值分别为-0.5801,-0.6756, -2.6843, -0.5125和0.7565,除了通话时长以外由对应的值都比显著性水平0.05小,可得4个偏回归系p数在显著性水平0.05下均显著不为零。因此,可以认为客户等级、主叫次数、被叫次数和费用对客户流失具有显著的影响。进一步地剩余方差的估计值,deviance统计量的估计值为898.52 ,说明,回归方程效果较好。
效应的置信区间
置信区间是给定自变量值后,由回归方程得到的的流失预测值(实0y际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。0y0y预测区间要比置信区间稍大,命令与显示结果如下
拟合优度与偏差
混淆矩阵
残差分析:
残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下
Logistics模型的残差:皮尔逊残差与标准化残差
左上图是拟合值与残差的散点图,从图上可以发现,除去第3个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第3个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。
联表的Cochran-Mantel-Haenszel检验
CMH统计量=1926.2, df=1815, P-value=0.034.
由于p值小于0.05,因此可以认为不同的客户等级客户流失和主叫次数之间不是相互独立的。
总结
这里只使用此模型对我国移动通信市场作出粗略的线性估计.我们猜测只是由于影响客户流失的因素复杂,如通信公司的经营状况、客户心理等等,并最终反映在客户流失行为上来 ,表现在客户流失的高低.此外,移动通信市场是一个动态的过程,客户作为通信产品的需求者与供应者,通过流失率来表达对价格水平的意见. 当然,值得注意的是,客户流失并不是由上述因素来决定,还有其他的影响因素。通过回归分析可以发现,客户流失与主叫次数、通话时长息息相关。