Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享-2

2024-04-22 125

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享

Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享-1

https://developer.aliyun.com/article/1489321

步骤5：将数据分割为训练和测试集

训练数据集和测试数据集必须相似，通常具有相同的预测变量或变量。它们在变量的观察值和特定值上有所不同。如果将模型拟合到训练数据集上，则将隐式地最小化误差。拟合模型为训练数据集提供了良好的预测。然后，您可以在测试数据集上测试模型。如果模型在测试数据集上也预测良好，则您将更有信心。因为测试数据集与训练数据集相似，但模型既不相同也不相同。这意味着该模型在真实意义上转移了预测或学习。

因此，通过将数据集划分为训练和测试子集，我们可以有效地测量训练后的模型，因为它以前从未看到过测试数据，因此可以防止过度拟合。

我只是将数据集拆分为20％的测试数据，其余80％将用于训练模型。

train\_test\_split(X, y, test\_size = 0.2, random\_state = 0)

步骤6：规范化数据：特征标准化

对于许多机器学习算法而言，通过标准化（或Z分数标准化）进行特征标准化可能是重要的预处理步骤。

许多算法（例如SVM，K近邻算法和逻辑回归）都需要对特征进行规范化，

min\_test = X\_test.min()
range\_test = (X\_test - min_test).max()
X\_test\_scaled = (X\_test - min\_test)/range_test

步骤7：应用机器学习模型

from sklearn.ensemble  import AdaBoostClassifier
adaboost =AdaBoostClassifier()

xgb\_classifier.fit(X\_train\_scaled, y\_train,verbose=True)
end=time()
train\_time\_xgb=end-start

应用具有100棵树和标准熵的随机森林

classifier = RandomForestClassifier(random_state = 47, 
                                    criterion = 'entropy',n_estimators=100)

svc_model = SVC(kernel='rbf', gamma=0.1,C=100)

knn = KNeighborsClassifier(n_neighbors = 7)

步骤8：分析和比较机器学习模型的训练时间

Train_Time = \[
    train\_time\_ada,
    train\_time\_xgb,
    train\_time\_sgd,
    train\_time\_svc,
    train\_time\_g,
    train\_time\_r100,
    
    train\_time\_knn
\]

从上图可以明显看出，与其他模型相比，Adaboost和XGboost花费的时间少得多，而其他模型由于SVC花费了最多的时间，原因可能是我们已经将一些关键参数传递给了SVC。

步骤9.模型优化

在每个迭代次数上，随机搜索的性能均优于网格搜索。同样，随机搜索似乎比网格搜索更快地收敛到最佳状态，这意味着迭代次数更少的随机搜索与迭代次数更多的网格搜索相当。

在高维参数空间中，由于点变得更稀疏，因此在相同的迭代中，网格搜索的性能会下降。同样常见的是，超参数之一对于找到最佳超参数并不重要，在这种情况下，网格搜索浪费了很多迭代，而随机搜索却没有浪费任何迭代。

现在，我们将使用Randomsearch cv优化模型准确性。如上表所示，Adaboost在该数据集中表现最佳。因此，我们将尝试通过微调adaboost和SVC的超参数来进一步优化它们。

参数调整

现在，让我们看看adaboost的最佳参数是什么

random\_search.best\_params_

{'random\_state': 47, 'n\_estimators': 50, 'learning_rate': 0.01}

random\_search.best\_params_

{'n\_estimators': 50, 'min\_child\_weight': 4, 'max\_depth': 3}

random\_search.best\_params_

{'penalty': 'l2', 'n\_jobs': -1, 'n\_iter': 1000, 'loss': 'log', 'alpha': 0.0001}

出色的所有指标参数准确性，F1分数精度，ROC，三个模型adaboost，XGBoost和SGD的召回率现已优化。此外，我们还可以尝试使用其他参数组合来查看是否会有进一步的改进。

ROC曲线图

auc = metrics.roc\_auc\_score(y\_test,model.predict(X\_test_scaled))
plt.plot(\[0, 1\], \[0, 1\],'r--')

# 计算测试集分数的平均值和标准差
test_mean = np.mean
# 绘制训练集和测试集的平均准确度得分
plt.plot
# 绘制训练集和测试集的准确度。
plt.fill_between

验证曲线的解释

如果树的数量在10左右，则该模型存在高偏差。两个分数非常接近，但是两个分数都离可接受的水平太远，因此我认为这是一个高度偏见的问题。换句话说，该模型不适合。

在最大树数为250的情况下，由于训练得分为0.82但验证得分约为0.81，因此模型存在高方差。换句话说，模型过度拟合。同样，数据点显示出一种优美的曲线。但是，我们的模型使用非常复杂的曲线来尽可能接近每个数据点。因此，具有高方差的模型具有非常低的偏差，因为它几乎没有假设数据。实际上，它对数据的适应性太大。

从曲线中可以看出，大约30到40的最大树可以最好地概括看不见的数据。随着最大树的增加，偏差变小，方差变大。我们应该保持两者之间的平衡。在30到40棵树的数量之后，训练得分就开始上升，而验证得分开始下降，因此我开始遭受过度拟合的困扰。因此，这是为什么30至40之间的任何数量的树都是一个不错的选择的原因。

结论

因此，我们已经看到，调整后的Adaboost的准确性约为82.95％，并且在所有其他性能指标（例如F1分数，Precision，ROC和Recall）中也取得了不错的成绩。

此外，我们还可以通过使用Randomsearch或Gridsearch进行模型优化，以找到合适的参数以提高模型的准确性。

我认为，如果对这三个模型进行了适当的调整，它们的性能都会更好。

Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享-2

步骤5：将数据分割为训练和测试集

步骤6：规范化数据：特征标准化

步骤7：应用机器学习模型

应用具有100棵树和标准熵的随机森林

步骤8：分析和比较机器学习模型的训练时间

步骤9.模型优化

参数调整

验证曲线的解释

结论

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Python信贷风控模型：Adaboost,XGBoost,SGD, SVC,随机森林, KNN预测信贷违约支付|数据分享-2

步骤5：将数据分割为训练和测试集

步骤6：规范化数据：特征标准化

步骤7：应用机器学习模型

应用具有100棵树和标准熵的随机森林

步骤8：分析和比较机器学习模型的训练时间

步骤9.模型优化

参数调整

验证曲线的解释

结论

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像