Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享-1

简介: Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享

原文链接:http://tecdat.cn/?p=26184 

在此数据集查看文末了解数据获取方式中,我们必须预测信贷的违约支付,并找出哪些变量是违约支付的最强预测因子?以及不同人口统计学变量的类别,拖欠还款的概率如何变化?

有25个变量:

1. ID: 每个客户的ID

2. LIMIT_BAL: 金额

3. SEX: 性别(1 =男,2 =女)

4.教育程度:(1 =研究生,2 =本科,3 =高中,4 =其他,5 =未知)

5.婚姻: 婚姻状况(1 =已婚,2 =单身,3 =其他)

6.年龄:

7.  PAY_0:  2005年9月的还款状态(-1 =正常付款,1 =延迟一个月的付款,2 =延迟两个月的付款,8 =延迟八个月的付款,9 =延迟9个月以上的付款)

8. PAY_2:  2005年8月的还款状态(与上述相同)

9. PAY_3: 2005年7月的还款状态(与上述相同)

10. PAY_4:  2005年6月的还款状态(与上述相同)

11. PAY_5:  2005年5月的还款状态(与上述相同)

12. PAY_6: 还款状态2005年4月 的账单(与上述相同)

13. BILL_AMT1: 2005年9月的账单金额

14. BILL_AMT2:  2005年8月的账单金额

15. BILL_AMT3: 账单金额2005年7月 的账单金额

16. BILL_AMT4: 2005年6月的账单金额

17. BILL_AMT5:  2005年5月的账单金额

18. BILL_AMT6: 2005年4月

19. PAY_AMT1  2005年9月,先前支付金额

20. PAY_AMT2  2005年8月,以前支付的金额

21. PAY_AMT3: 2005年7月的先前付款

22. PAY_AMT4:  2005年6月的先前付款

23. PAY_AMT5:  2005年5月的先前付款

24. PAY_AMT6: 先前的付款额在2005年4月

25. default.payment.next.month: 默认付款(1 =是,0 =否)

现在,我们知道了数据集的整体结构。因此,让我们应用在应用机器学习模型时通常应该执行的一些步骤。

第1步:导入

import numpy as np
import matplotlib.pyplot as plt

所有写入当前目录的结果都保存为输出。

dataset = pd.read_csv('Card.csv')

现在让我们看看数据是什么样的

image.png

第2步:数据预处理和清理

dataset.shape
(30000, 25)

意味着有30,000条目包含25列

image.png

从上面的输出中可以明显看出,任何列中都没有对象类型不匹配。

#检查数据中Null项的数量,按列计算。
dataset.isnull().sum()

image.png

步骤3.数据可视化和探索性数据分析

# 按性别检查违约者和非违约者的计数数量
sns.countplot

image.png

从上面的输出中可以明显看出,与男性相比,女性的整体拖欠付款更少

image.png

可以明显看出,那些拥有婚姻状况的人的已婚状态人的默认拖欠付款较少。

image.png

image.png

sns.pairplot

image.png

sns.jointplot

image.png

男女按年龄分布

g.map(plt.hist,'AGE')

image.png

dataset\['LIMIT_BAL'\].plot.density

image.png

步骤4.找到相关性

X.corrwith

image.png

从上图可以看出,最负相关的特征是LIMIT_BAL,但我们不能盲目地删除此特征,因为根据我的看法,这对预测非常重要。ID无关紧要,并且在预测中没有任何作用,因此我们稍后将其删除。

# 绘制热图
sns.heatmap(corr)

image.png


Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享-2

https://developer.aliyun.com/article/1489322

相关文章
|
18天前
|
机器学习/深度学习 数据可视化 数据处理
数据分享|R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
数据分享|R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
|
19天前
|
机器学习/深度学习 算法 测试技术
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享-2
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享
|
19天前
|
机器学习/深度学习 Python
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-4
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
|
5天前
|
机器学习/深度学习 算法 测试技术
Python贷款违约预测:Logistic、Xgboost、Lightgbm、贝叶斯调参/GridSearchCV调参|数据分享
Python贷款违约预测:Logistic、Xgboost、Lightgbm、贝叶斯调参/GridSearchCV调参|数据分享
|
5天前
|
机器学习/深度学习 数据采集 数据可视化
数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM交叉验证可视化
数据分享|python分类预测职员离职:逻辑回归、梯度提升、随机森林、XGB、CatBoost、LGBM交叉验证可视化
|
5天前
|
机器学习/深度学习 监控 数据可视化
数据分享|电信行业客户流失预测:KNN、朴素贝叶斯、逻辑回归、LDA/QDA、随机森林、支持向量机、CART、神经网络
数据分享|电信行业客户流失预测:KNN、朴素贝叶斯、逻辑回归、LDA/QDA、随机森林、支持向量机、CART、神经网络
|
15天前
|
机器学习/深度学习 数据采集 算法
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付
|
16天前
|
机器学习/深度学习 数据采集 算法
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享
Python信贷风控模型:Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享
|
13天前
|
机器学习/深度学习 数据采集 数据可视化
python用回归、arima、随机森林、GARCH模型分析国债期货波动性、收益率、价格预测
python用回归、arima、随机森林、GARCH模型分析国债期货波动性、收益率、价格预测
|
12天前
|
机器学习/深度学习 测试技术 数据处理
【视频】R语言机器学习高维数据应用:Lasso回归和交叉验证预测房屋市场租金价格
【视频】R语言机器学习高维数据应用:Lasso回归和交叉验证预测房屋市场租金价格