PYTHON条件生存森林模型CONDITIONAL SURVIVAL FOREST分类预测客户流失交叉验证可视化|数据分享

简介: PYTHON条件生存森林模型CONDITIONAL SURVIVAL FOREST分类预测客户流失交叉验证可视化|数据分享

原文链接:http://tecdat.cn/?p=26982 


简介

客户流失/流失,是企业最重要的指标之一,因为获取新客户的成本通常高于保留现有客户的成本。

事实上,根据一个 study by Bain & Company,随着时间的推移,现有客户倾向于从公司购买更多产品,从而降低企业的运营成本,并可能将他们使用的产品推荐给其他人。例如,在金融服务领域,客户保留率每增加 5%,利润就会增加 25% 以上。

通过使用生存分析,公司不仅可以预测客户是否可能停止开展业务,还可以预测该事件何时发生。


数据集


描述和概述


团队想要使用的数据集查看文末了解数据获取方式包含以下变量

从分类到数值


有几个分类特征需要编码为 one-hot 向量:

# 创建向量
dtset = pd.get_dummies(rawdaset, columns=caegres)
# 创建时间和事件列
timeolun = 'onth_tive
ent_clmn = 'chuned' (事件列)。
# 提取特征
特征 = np.setdiff1d(daaet.oums, \[tie_olmn,\] ).tolist()

探索性数据分析


在这里,我们将只检查数据集是否包含 Null 值或是否有重复的行。然后,我们将看看特征相关性。


空值和重复


首先要做的是检查 raw_dataset 是否包含 Null 值和重复的行。

# 检查是否为空值
Null = sum(dtaet\[feaues\].isnull().sum())
# 如果存在重复的数据,则将其删除
daast = datt.drop\_duplicates(keep='first').reset\_index(drop=True)
# 数据集中的样本数
N = det.shape\[0\] 。

事实证明,数据集没有任何 Null 值或重复项。


相关性


让我们计算和可视化特征之间的相关性

图 1 - 相关性


点击标题查阅往期内容


PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像


01

02

03

04


建模


构建模型


为了稍后执行交叉验证并评估模型的性能,让我们将数据集拆分为训练集和测试集。

# 建立训练和测试集
dex\_train, index\_test = train\_test\_split( range(N), test_size = 0.35)
# 创建X、T和E输入
X\_tain, Xtst = daa\_ain\[ftures\], datts\[fees\]
T\_tin, T\_tst = daa\_rain\[ie\_olumn\], dta\_est\[tme\_olumn\]
E\_tain, \_tst = daa\_tain\[vent\_cumn\], dattet\[evet_lumn\]

注意:超参数的选择是使用网格搜索选择获得的。

# 拟合模型
cf.fit(\_trai, T\_tra, \_tain, ax\_eatrs='sqrt',

变量重要性


建立生存森林模型后,我们可以计算特征重要性:

# 计算变量的重要性
sf.vaialeipotanetle.head(5)

这是最重要的变量中的前 5 个。

由于变量的重要性,我们可以更好地了解是什么推动了保留或流失。在这里,会计和薪资管理产品、满意度调查得分以及与客户支持通话的时间都发挥着重要作用。

注意:重要性是扰动和未扰动错误率之间的预测误差差异


交叉验证


为了评估模型性能,我们之前将原始数据集拆分为训练集和测试集,以便我们现在可以在测试集上计算其性能指标:


C-index


这C-index代表模型辨别能力的全局评估: 这是模型根据个体风险评分正确提供生存时间可靠排名的能力。一般来说,当 C-index 接近 1 时,模型具有近乎完美的判别力;但如果接近0.5,则没有区分低风险和高风险对象的能力。


Brier score


这Brier score测量给定时间状态和估计概率之间的平均差异。 因此,分数越低(_通常低于 0.25_),预测性能就越好。为了评估跨多个时间点的整体误差测量,通常还计算综合 Brier 分数 (IBS)。

图 2 - 条件生存森林 - Brier 分数和预测误差曲线

IBS 在整个模型时间轴上等于 0.13。这表明该模型将具有良好的预测能力。


预测


总体预测


既然我们已经建立了一个似乎可以提供出色性能的模型,让我们比较每个时间 t 停止与 SaaS 公司开展业务的实际客户数量和预测客户数量的时间序列。

comroal(cf, X\_tst, T\_tst, E_tst

图 3 - 条件生存森林 - 流失的客户数量

该模型总体上提供了非常好的结果,因为在整个 12 个月的窗口中,它只会产生约 5 个客户的平均绝对误差。


个人预测


让我们计算在 所有时间 t 中保留客户的概率

首先,我们可以根据风险评分分布构建风险组。

cree\_rskups(oel=csf, X=X\_test

图 4 - 条件生存森林 - 风险组


在这里,可以区分 3 个主要群体, 低_风险、 _中_风险 和 _高 风险群体。由于 C 指数较高,模型将能够对每组随机单元的生存时间进行适当的排序。

让我们随机选择每组中的单个单元,并比较它们在所有时间 t 中保留客户的概率。为了证明我们的观点,我们将特意选择经历过事件的单位来可视化事件的实际时间。

图 5 - 条件生存森林 - 预测个人保留客户的概率

在这里,我们可以看到该模型设法提供了对事件时间的出色预测。


结论


我们现在可以保存我们的模型,以便将其投入生产并为未来的客户评分。

总之,我们可以看到,可以预测客户在不同时间点停止与公司开展业务的时间。该模型将帮助公司在留住客户方面更加积极主动;并更好地了解导致客户流失的原因。

相关文章
|
1天前
|
机器学习/深度学习 数据采集 算法框架/工具
使用Python实现深度学习模型:智能野生动物保护与监测
使用Python实现深度学习模型:智能野生动物保护与监测
11 5
|
3天前
|
机器学习/深度学习 数据采集 算法框架/工具
使用Python实现智能生态系统监测与保护的深度学习模型
使用Python实现智能生态系统监测与保护的深度学习模型
19 4
|
4天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
12 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
18天前
|
存储 程序员 开发者
Python编程基础:从入门到实践
【10月更文挑战第8天】在本文中,我们将一起探索Python编程的奇妙世界。无论你是初学者还是有一定经验的开发者,这篇文章都将为你提供有价值的信息。我们将从Python的基本概念开始,然后逐步深入到更复杂的主题,如数据结构、函数和类。最后,我们将通过一些实际的代码示例来巩固我们的知识。让我们一起开始这段Python编程之旅吧!
|
7天前
|
安全 数据处理 开发者
Python中的多线程编程:从入门到精通
本文将深入探讨Python中的多线程编程,包括其基本原理、应用场景、实现方法以及常见问题和解决方案。通过本文的学习,读者将对Python多线程编程有一个全面的认识,能够在实际项目中灵活运用。
|
1天前
|
设计模式 开发者 Python
Python编程中的设计模式:工厂方法模式###
本文深入浅出地探讨了Python编程中的一种重要设计模式——工厂方法模式。通过具体案例和代码示例,我们将了解工厂方法模式的定义、应用场景、实现步骤以及其优势与潜在缺点。无论你是Python新手还是有经验的开发者,都能从本文中获得关于如何在实际项目中有效应用工厂方法模式的启发。 ###
|
6天前
|
弹性计算 安全 小程序
编程之美:Python让你领略浪漫星空下的流星雨奇观
这段代码使用 Python 的 `turtle` 库实现了一个流星雨动画。程序通过创建 `Meteor` 类来生成具有随机属性的流星,包括大小、颜色、位置和速度。在无限循环中,流星不断移动并重新绘制,营造出流星雨的效果。环境需求为 Python 3.11.4 和 PyCharm 2023.2.5。
26 9
|
2天前
|
数据采集 机器学习/深度学习 人工智能
Python编程入门:从基础到实战
【10月更文挑战第24天】本文将带你进入Python的世界,从最基础的语法开始,逐步深入到实际的项目应用。我们将一起探索Python的强大功能和灵活性,无论你是编程新手还是有经验的开发者,都能在这篇文章中找到有价值的内容。让我们一起开启Python的奇妙之旅吧!
|
3天前
|
设计模式 监控 数据库连接
Python编程中的设计模式之美:提升代码质量与可维护性####
【10月更文挑战第21天】 一段简短而富有启发性的开头,引出文章的核心价值所在。 在编程的世界里,设计模式如同建筑师手中的蓝图,为软件的设计和实现提供了一套经过验证的解决方案。本文将深入浅出地探讨Python编程中几种常见的设计模式,通过实例展示它们如何帮助我们构建更加灵活、可扩展且易于维护的代码。 ####
|
1天前
|
数据库 开发者 Python
“Python异步编程革命:如何从编程新手蜕变为并发大师,掌握未来技术的制胜法宝”
【10月更文挑战第25天】介绍了Python异步编程的基础和高级技巧。文章从同步与异步编程的区别入手,逐步讲解了如何使用`asyncio`库和`async`/`await`关键字进行异步编程。通过对比传统多线程,展示了异步编程在I/O密集型任务中的优势,并提供了最佳实践建议。
7 1