PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享（上）

2024-04-25 187

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享

原文链接：http://tecdat.cn/?p=26219

银行数据集

我们的数据集描述

该数据（查看文末了解数据获取方式）与银行机构的直接营销活动相关，营销活动基于电话。通常，需要与同一客户的多个联系人联系，以便访问产品（银行定期存款）是否会（“是”）或不会（“否”）订阅。

y - 客户是否订阅了定期存款？（二进制：'是'，'否'）

我们的目标是选择最好的回归模型来让客户订阅或不订阅定期存款。我们将使用如下算法：

线性回归
随机森林回归
KNN近邻
决策树
高斯朴素贝叶斯
支持向量机

选择最佳模型的决定将基于：

准确性
过采样

数据准备

在本节中，我们加载数据。我们的数据有 45211 个变量。

输入变量：

银行客户数据

1 - 年龄(数字)

2 - 工作：工作类型（分类：'行政'、'蓝领'、'企业家'、'女佣'、'管理'、'退休'、'自雇'、'服务'、'学生'、'技术员'、'失业'、'未知')

3 - 婚姻：婚姻状况（分类：'离婚'、'已婚'、'单身'、'不详'；注：'离婚'指离婚或丧偶）。

4 - 教育（分类：'基础4年'、'基础6年'、'基础9年'、'高中'、'文盲'、'专业课程'、'大学学位'、'未知')

5 - 违约：是否有违约的信贷？(分类: '没有', '有', '未知')

6-住房：是否有住房贷款？(分类: '否', '是', '未知')

7 - 贷款：有个人贷款吗？

8 - contact: 联系通信类型（分类：'手机', '电话'）。

9 - 月：最后一次联系的年份月份（分类：'一月', '二月', '三月', ..., '十一月', '十二月')

10 - day\_of\_week：最后一次联系的星期（分类：'mon', 'tue', 'wed', 'thu', 'fri')

11 - 持续时间：最后一次联系的持续时间，以秒为单位（数字）。

12 - 活动：在这个活动期间为这个客户进行的接触次数（数字，包括最后一次接触）。

13 - pdays: 在上次活动中最后一次与客户联系后的天数（数字，999表示之前没有与客户联系）。

14 - 以前：在这次活动之前，为这个客户进行的接触次数（数字）。

15 - 结果：上次营销活动的结果（分类："失败"、"不存在"、"成功"）。

社会和经济背景属性

16 - emp.var.rate：就业变化率--季度指标（数值）。

17 - cons.price.idx：消费者价格指数--月度指标（数值）。

18 - cons.conf.idx：消费者信心指数--月度指标（数字）。

19 - euribor3m：银行3个月利率--每日指标(数值)

20 - nr.employed: 雇员人数 - 季度指标(数字)

输出变量（所需目标）：

y - 客户是否认购了定期存款？(二进制: '是', '否')

data.head(5)

我们的下一步是查看变量的形式以及是否存在缺失值的问题。

df1 = data.dtypes
df1

df2 = data.isnull().sum() 
df2

我们的下一步是计算所有变量的值。

data\['y'\].value_counts()

data\['job'\].value_counts()

data\['marital'\].value_counts()

data\['education'\].value_counts()

data\['housing'\].value_counts()

data\['loan'\].value_counts()

data\['contact'\].value_counts()

data\['month'\].value_counts()

data\['poutcome'\].value_counts()

描述性统计

数值总结

data.head(5)

改变因变量 y 的值。代替 no - 0 和代替 yes - 1。

data\['y'\] = data\['y'\].map({'no': 0, 'yes': 1})

data.columns

对于我们的每个变量，我们绘制一个箱线图来查看是否有任何可见的异常值。

plt.figure(figsize=\[10,25\])
ax = plt.subplot(611)
sns.boxplot(data\['age'\],orient="v")

我们可以看到许多可见的异常值，尤其是在 balance 、 campaign 、 pdays 的情况下。在 pdays ，我们可以看到很多变量都在分位数范围之外。这个变量是一个特例，它被解码为 -1，这就是我们的图看起来像这样的原因。在表示变量之前的箱线图的情况下，它表示在此活动之前执行的联系数量，在这种情况下，我们还可以注意到许多超出分位数范围的值。

直方图

我们的下一步是查看连续变量的分布和直方图

我们可以看到没有一个变量具有正态分布。

plt.figure(figsize=\[10,20\])
plt.subplot(611)
g = sns.distplot(data\["age"\], color="r")

我们的下一步是查看因变量 y 与每个变量或连续变量之间的关系。

g = sns.FacetGrid(data, col='y',size=4)
g.map

从这些变量中我们可以得到的最有趣的观察是，大多数说不的人年龄在20-40岁之间，在月底的第20天，大多数人也拒绝了这个提议。

分类总结

我们制作仅包含分类变量的数据子集，以便更轻松地绘制箱线图

data_categorical = data\[\['job',
 'marital',
 'education',
 'default', 'housing',
 'loan','month', 'y'\]\]

我们还查看了分类变量，看看是否有一些有趣的特征

从上面的条形图中可以看出，最有趣的结果来自变量：婚姻状况、教育和工作。

从代表婚姻状况的图表来看，大多数人都已婚。

正如我们在代表教育的图表上看到的那样 - 最大的是接受过中等教育的人数。

在约伯的情况下，我们可以看到大多数人都有蓝领和管理工作。

我们还想在马赛克图上查看我们的分类变量与 y 变量之间的关系。

plt.rcParams\['font.size'\] = 16.0

正如我们所见，大多数人都拒绝了该提议。就地位而言，已婚的人说“不”最多。

在可变违约的情况下，大多数没有违约信用的人也拒绝了该提案。

大多数有住房贷款的人也拒绝了该提议。

大多数没有贷款的人拒绝了这个提议。

点击标题查阅往期内容

用PyTorch机器学习神经网络分类预测银行客户流失模型

数据挖掘

data.head(5)

我们想更深入地研究我们的变量，看看我们是否可以用它们做更多的事情。

我们的下一步是使用 WOE 分析。

finv, IV = datars(data,data.y)
IV

PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享（下）：https://developer.aliyun.com/article/1492259

PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享（上）

银行数据集

我们的数据集描述

数据准备

描述性统计

数值总结

直方图

分类总结

数据挖掘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享（上）

银行数据集

我们的数据集描述

数据准备

描述性统计

数值总结

直方图

分类总结

数据挖掘

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像