【数据分享】简化的评分卡、Smote采样和随机森林的信贷违约预测

2024-04-25 86

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【数据分享】简化的评分卡、Smote采样和随机森林的信贷违约预测

查看全文：http://tecdat.cn/?p=27949

作者：Youming Zhang

随着互联网经济的迅猛发展，个人信贷规模在近年来呈现了爆炸式增长。信用风险管控一直是金融机构研究的热点问题。信贷违约预测目标包括两个方面。其一是为了使债务人通过模型来进行财务方面良性的决策。其二是债权人可以通过模型预测贷款人是否会贷款后陷入财务方面的困境。我们以信贷平台上的数据（查看文末了解数据获取方式）作为信贷数据样本，构造一个经典的传统信贷申请评分卡模型和随机森林预测模型帮助我们决策是否放贷。其中数据集24万条数据，59个特征。

解决方案

任务/目标

根据申请贷款人的各项指标数据，我们通过机器学习算法解决放贷与不放贷的二分类问题。

数据源准备

在着手处理数据之前，我们先了解一下基本的数据情况，为接下来的数据预处理，

特征工程和建模做准备。首先我们明确目标特征为 loan_status，原数据集中fully paid 表示贷款完全结清，charged off 表示坏账注销。为了后期运用逻辑回归算法的方便，我们直接将其转换成数值变量，用 1 来表示违约，0 表示正常偿还。

数据探索

因为我们使用的算法为基于逻辑回归的评分卡和随机森林模型，特征之间的线性相关性会对模型建立的环节有所影响，所以利用热力图展示一下特征之间的相关性。

图中颜色越浅的部分，对应两两元素的相关性越强。我们在预处理和特征工程步骤对其需要着重处理。

数据预处理

对于缺失值，我们选择删除缺失值超过80%的特征，没有超过阈值的用众数补充。对于同值性变量，我们选择将大于95%的变量删除。因为异常值不多，所以那一行数据选择直接删除。由下图可以看出这是一个不平衡样本。

我们使用Smote上采样算法，使其平衡。

最后我们将数值型特征emp_length，home_ownership，verification_status，term，addr_state，purpose进行LabelEncoder编码。

点击标题查阅往期内容

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

特征工程

我们知道特征之间存在共线性，利用VIF和COR两个系数筛选，我们得到新的热力图如下。可见共线性情况有很好的改善。

接着对特征进行最大IV值分箱，同时删除IV值较小的特征。最后得到部分连续特征的分箱结果如下。

将分箱结果WOE化，这样可以得知分箱之间的实质性间隔距离。

划分训练集和测试集

我们使用 sklearn 中算法将数据集进行划分，训练集用来模型的拟合.验证集用来回归调参数，测试集用来测试模型的预测能力。

建模

简化评分卡模型

此处的创新点在于简化评分卡模型思想的构建，我们简化的部分在于不去生成评分卡，而是利用评分卡模型中对特征进行WOE变换的一个核心思想，将它和逻辑回归模型相结合，从而得到一个简化评分卡模型。

特征处理的方式有很多，我们选择WOE变换，这是因为WOE变换后的变量和逻辑回归线性表达式成单调关系，这样更加好的衡量组与组之间的数量联系。

随机森林

用随机的方式建立一个森林，森林由很多决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

简化评分卡

我们将分箱得到的每个特征 woe 值替代数据集中特征本身的值。并用逻辑回归模型进行分类，得到的模型结果准确率达到了 0.7 以上，AUC = 0.78，ks=0.41 说明模型预测能力强。同时我们在验证集上实现了学习曲线，发现并没有显著提升模型的准确率，在十次调用后只将准确率提升了 0.02。

随机森林

随机森林是以决策树为弱学习模型通过 bagging 方法构造出的强学习模型。它能容纳更多的信息，同时通过多模型的投票很好的避免了过拟合的影响。这一模型作为评分卡的参考。我们用 n 表示底层决策树的个数，一般来说，树的个数越多，模型的稳定性越强，但对计算性能也有很高的要求。在这里我们构建的树的个数为 41 棵，得到模型的结果准确率达到了 90.9%，AUC 达到了 0.93，ks 达到了0.82，分类结果非常好。

关于作者

在此对Youming Zhang对本文所作的贡献表示诚挚感谢，他擅长机器学习、特征工程、数据预处理。

【数据分享】简化的评分卡、Smote采样和随机森林的信贷违约预测

查看全文：http://tecdat.cn/?p=27949

作者：Youming Zhang

解决方案

任务/目标

数据源准备

数据探索

数据预处理

特征工程

划分训练集和测试集

简化评分卡模型

随机森林

简化评分卡

随机森林

关于作者

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【数据分享】简化的评分卡、Smote采样和随机森林的信贷违约预测

查看全文：http://tecdat.cn/?p=27949

作者：Youming Zhang

解决方案

任务/目标

数据源准备

数据探索

数据预处理

特征工程

划分训练集和测试集

简化评分卡模型

随机森林

简化评分卡

随机森林

关于作者

热门文章

最新文章

相关课程

相关电子书

相关实验场景