大数据新算法在个人信用风险评估模型中使用效果的评估

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

上世纪80年代,美国费埃哲公司基于逻辑回归算法构建了费埃哲信用评分体系,并成为美国信用评分市场的巨头。然而,随着大数据建模技术的日新月异,许多新算法、新技术层出不穷。本项目选取了五种大数据新算法,包括支持向量机(SVM)、决策树、随机森林、自适应提升(AdaBoost)和梯度提升决策树(GBDT),在中国人民银行征信中心的大规模样本上进行了个人风险评估模型的构建,并从三方面进行评估。首先,从模型的准确性和可解释性方面综合对比各算法构建的模型在个人信用风险评估中的效果。之后使用时点外测试样本,对各算法构建的模型的外部时点稳定性进行了评估。

项目背景

目前,中国人民银行征信中心的信用报告数字解读体系参考了美国个人消费信用评估公司费埃哲开发的费埃哲信用评分体系。费埃哲信用评分体系构建于上世纪80年代,其核心算法是逻辑回归。随着统计分析和大数据建模技术的进步,算法的发展日新月异,形成了包括决策树、随机森林、神经网络分析与自适应提升(AdaBoost)等在内的许多新算法新技术,而这些大数据新算法在目前征信中心的数据集上的准确性、稳定性与可解释性仍有待验证评估。

为此,中国人民银行征信中心联合北京至信普林科技有限公司,选取了五种大数据新算法,分别为支持向量机(SVM)、决策树、随机森林、自适应提升(AdaBoost)和梯度提升决策树(GBDT),全面评估和比较上述五种算法在个人信用风险评估模型中的效果,包括稳定性、准确性与可解释性,以进一步理解相关算法在评分上的优势与短板。对新型评分模型的探索与试验有助于为征信中心积累模型算法经验,与国际领先的建模方法接轨,同时以新颖的信用评估模型作为战略储备,为打造我国自有的信用评分体系积累经验。

算法介绍

支持向量机(Support Vector Machine,SVM)是一种分类学习算法。支持向量机(SVM)的基本模型是定义在特征空间上的间隔最大的线性分类器。线性支持向量机与逻辑回归类似,都是给每一个变量赋予一个权重因子,最终变量的加权和作为预测的依据。同时支持向量机(SVM)可以使用核函数将变量映射到高维空间,从而提升模型效果。然而这种方法的主要缺点是训练速度慢,难以直接运用到大规模数据,因此本项目仅对线性支持向量机进行了测试。

决策树(Decision Tree)是一种基本的分类与回归方法。决策树模型呈树形结构,可以认为“是否”判断规则(if-then)的集合,也可以看作定义在特征空间与类空间上的条件概率分布。其主要优点是训练速度快,预测速度也很快。相对于线性模型,决策树还可以处理非线性数据。此外,决策树模型可解释性非常强,对于数据的适应能力也很强;其缺点则是单棵决策树容易过拟合。

随机森林(Random Forest)由多棵决策树组成,每棵决策树擅长特定人群、重点关注特定变量,然后一起决策,作出最终判断。随机森林在构建每棵决策树时,通过样本和变量两个维度进行随机抽样。随机森林的优点是训练速度快,可以很好地进行并行化,能够处理大规模数据。

自适应提升(Adaptive Boosting,AdaBoost)核心思想是利用同一训练样本的不同加权版本,训练一组弱分类器(Weak Learner),然后把这些弱分类器以加权的形式集成起来,形成一个最终的强分类器(Strong Learner)。在每一步迭代过程中,被当前弱分类器分错的样本的权重会相应得到提高,被当前弱分类器分对的样本的权重则会相应降低。弱分类器的权重则根据当前分类器的加权错误率来确定。自适应提升(AdaBoost)的优点是不容易产生过拟合,预测效果好。

梯度提升决策树(Gradient Boosting Decision Tree,GBDT)与自适应提升(AdaBoost)在很多方面类似,也是子模型之间相互协作,不同的是后一个子模型对前一个模型的失误进行修正。梯度提升决策树(GBDT)模型预测的时候,对于输入的一个样本实例,首先会赋予一个初值,然后会遍历每一棵决策树,每棵树都会对预测值进行调整修正,最后得到预测的结果。

逻辑回归适合处理线性数据,而实际问题往往是非线性的,特别是在信用风险评估场景下。支持向量机(SVM)能够通过核函数等方法处理非线性数据,然而在样本量大时训练速度太慢。决策树能够处理非线性数据,但是单棵决策树对数据十分敏感,容易产生过拟合问题。随机森林通过采样来减小计算量,同时能够利用并行方式进行模型训练,因而适合处理大规模高维数据。自适应提升(AdaBoost)和梯度提升决策树(GBDT)在基本决策树模型的基础上,通过数据权重变换等方式,能够将一个弱模型变成强模型,同时能够有效避免过拟合问题。

建模流程

本次研究使用的数据集为征信中心数据库存储的1265万人的个人征信数据,具体包括2010年7月31日时间点的贷款记录、贷记卡记录、准贷记卡记录、特殊交易记录和查询记录。采用自2010年7月31日至2012年7月31日之间个人违约情况的记录定义表现变量,表现变量取值范围为0(未逾期)和1(逾期90天以上)。

项目建模的流程如下:(1)首先对原始数据进行分析,研究原始数据各字段的含义并分析数据质量;(2)基于分析结果,确定刻画个人信用的七大类统计指标, 包括历史还款信息、帐户类型和数量、正在使用和已结清帐户信息、信用时长、新开帐户信息、查询信息和特殊交易信息;(3)对部分连续型指标采用单变量决策树的方法进行分栏处理;(4)利用大数据算法构建个人信用风险评估模型;(5)对各算法构建的模型效果进行评估和分析。

本项目中数据的分析、处理与建模等均是基于派森(Python) 环境。

效果评估

本项目主要从准确性,稳定性,可解释性三个方面来评估模型。其中准确性指标包括感受性曲线下面积(ROC_AUC)和区分度指标(Kolmogorov-Smirnov,KS),稳定性指标主要参考群体稳定指数(Population Shift Index,PSI)。可解释性可通过指标重要度来进行评估,其中指标重要度用于衡量各个解释变量对算法预测结果影响的程度。感受性曲线下面积(ROC_AUC)、区分度指标(KS)和群体稳定指数(PSI)的具体含义如下:

感受性曲线下面积(ROC_AUC)

感受性曲线下面积(ROC_AUC)是一个从整体上评价模型准确性的指标,是感受性曲线(ROC)与横轴之间的面积。相比于其他评价指标,感受性曲线(ROC)具有一定的稳定性,它不会因为正负样本分布的变化而产生不同的曲线。感受性曲线(ROC)通过真阳率(True Positive Rate, TPR)和假阳率(False Positive Rate, FPR)两个指标进行绘制。感受性曲线(ROC)示意如图1所示。感受性曲线下面积(ROC_AUC)取值范围为[0,1],取值越大,代表模型整体准确性越好。

区分度指标(KS)

区分度指标(KS)是度量具体模型下正常样本和违约样本分布的最大差距,首先按照样本的信用分数或预测违约率从小到大进行排序,然后计算每一个分数或违约率下好坏样本的累计占比。正常和违约样本的累计占比差值的最大值即为区分度指标(KS)。区分度指标(KS)的示意如图2所示。区分度指标(KS)小于0.2代表模型准确性差,超过0.75则代表模型准确性高。

群体稳定指数(PSI)

模型是在特定时间点开发的,是否对外部样本有效需要经过稳定性测试。群体稳定指数(Population Stability Index,PSI)是最常用的模型稳定性评价指标。群体稳定指数(PSI)的计算公式为:

其中预期占比(Expected%)和实际占比(Actual%)分别表示在模型训练样本和测试样本中,对应分数段或违约率段内的人群占比。一般而言,群体稳定指数(PSI)小于0.1代表模型稳定性高,群体稳定指数(PSI)大于0.1小于0.25代表模型稳定性中等,群体稳定指数(PSI)大于0.25代表模型稳定性较差。

2010年样本测试。我们首先在2010年样本上进行建模,评估各模型的准确性与可解释性。2010年样本是指2010年表现变量取值为0(未逾期)和1(逾期90天以上)的人群,样本大小约为1000万。选取样本的70%作为训练样本构建模型,30%作为测试样本评估模型效果。各模型的感受性曲线下面积(ROC_AUC)和区分度指标(KS)分别如图3所示和图4所示。

从上述结果可以看出,集成算法(随机森林,梯度提升决策树,自适应提升)建立的模型表现更好,感受性曲线下面积(ROC_AUC)指标达到0.95以上。支持向量机(SVM)的准确性表现最差,这与数据样本大,在项目环境下无法使用核函数有关。决策树表现一般,感受性曲线下面积(ROC_AUC)指标分别为0.9477。具体地,如果以区分度指标(KS)作为衡量标准,自适应提升(AdaBoost)表现最好,区分度指标(KS)达到0.7803。其他模型的表现排序为:随机森林>梯度提升决策树(GBDT)>决策树>支持向量机(SVM)。

在可解释性方面,通过各算法计算指标重要度以帮助对结果进行解读。综合考虑所有模型生成的指标重要度而得出的综合排序如表1所示。

从各模型指标重要度综合排序来看,对个人信用评估影响最大的因素分别是:逾期情况、正常还款比例、免担保贷款、授信额度使用率、信用年限等。可见,影响大数据新算法预测结果的都是可解释性较高的统计指标。与传统的逻辑回归模型相比,大数据算法不需要太多的变量选择和变量评估工作,能够在模型的构建过程中自动选取重要的变量,并对变量的重要性进行自动评估。

外部时点样本测试。为了评估模型在外部时点样本上的表现,我们对大数据新算法模型在外部时点样本上进行了测试。其中外部时点样本选取截至2011年3月31日时间点的纪录,样本总人数约为1300万。使用2010年训练样本所训练的模型在外部时点样本上进行测试,分析比较其在外部时点样本上的准确性和稳定性。

各模型的性能评价指标如图5与表2所示,其中2010年表示模型在2010年测试样本上的表现,2011年表示模型在2011年测试样本上的表现。

对比模型在2010年及2011年样本上的预测结果,在准确性方面,决策树、随机森林、自适应提升(AdaBoost)的感受性曲线下面积(ROC_AUC)有所下降,而梯度提升决策树(GBDT)的感受性曲线下面积(ROC_AUC)有所提升;决策树、自适应提升(AdaBoost)的区分度指标(KS)有所下降,而逻辑回归、随机森林、梯度提升决策树(GBDT)和支持向量机(SVM)的区分度指标(KS)有所提升。整体来说,准确性方面各模型在2011年测试样本上的表现与在2010年测试样本上的表现无明显差异,表现稳定。从群体稳定指数(PSI)来看,自适应提升(AdaBoost)和支持向量机(SVM)稳定性最好(PSI<0.1),而决策树与梯度提升决策树(GBDT)的稳定性次之(0.10.25)。

总结:

为了评估大数据新算法在个人信用风险评估模型中使用效果,中国人民银行征信中心联合北京至信普林科技有限公司,从准确性、稳定性和可解释性三个方面对主流的大数据算法的模型构建效果进行了综合评估。项目选取了五种大数据新算法,包括决策树、随机森林、自适应提升(AdaBoost)、梯度提升决策树(GBDT)和支持向量机(SVM),在千万级别的大规模样本中进行个人风险评估模型的构建和分析。

在2010年1000万样本上的分析结果表明,自适应提升(AdaBoost)、梯度提升决策树(GBDT)和随机森林三种集成算法准确性表现最佳,决策树准确性次之,支持向量机(SVM)的准确性最差。同时,对外部时点样本的分析结果表明,自适应提升(AdaBoost)和支持向量机(SVM)稳定性高,决策树、梯度提升决策树(GBDT)稳定性中,随机森林稳定性低。在可解释性方面,大数据新算法都能够对统计指标的重要度作出评估,统计指标综合排序靠前的统计指标的解释性较好。综合来看,部分大数据算法(如自适应提升)在准确性和稳定性上均表现优异,可以作为我国新一代信用风险评估模型的战略储备。

大数据算法是模型构建的工具,其结果不是绝对的,如何根据数据特征和算法特性构建合适的模型也是非常关键的。在实际模型开发过程中,需要业务专家和数据科学团队在数据逻辑的理解和建模指标的选取上紧密合作。此外,数据科学团队需要对算法的核心原理有着深刻的理解,并且具备快速的算法实现能力,强大的大规模数据处理能力,才能充分利用大数据算法开发出高性能的信用风险评估模型。


本文作者:大数据评分算法研究课题组

来源:51CTO

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
4月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
5月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
202 4
|
5月前
|
数据采集 机器学习/深度学习 人工智能
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
|
2月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
1月前
|
存储 SQL Java
Java 大视界 -- Java 大数据在智能医疗手术风险评估与术前方案制定中的应用探索(203)
本文探讨了Java大数据技术在智能医疗手术风险评估与术前方案制定中的创新应用。通过多源数据整合、智能分析模型构建及知识图谱技术,提升手术风险预测准确性与术前方案制定效率,助力医疗决策智能化,推动精准医疗发展。
|
2月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
2月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
|
2月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在舆情分析中的情感倾向判断与话题追踪(185)
本篇文章深入探讨了Java大数据与机器学习在舆情分析中的应用,重点介绍了情感倾向判断与话题追踪的技术实现。通过实际案例,展示了如何利用Java生态工具如Hadoop、Hive、Weka和Deeplearning4j进行舆情数据处理、情感分类与趋势预测,揭示了其在企业品牌管理与政府决策中的重要价值。文章还展望了多模态融合、实时性提升及个性化服务等未来发展方向。
|
机器学习/深度学习 数据采集 算法
Java 大视界 -- Java 大数据机器学习模型在金融衍生品定价中的创新方法与实践(166)
本文围绕 Java 大数据机器学习模型在金融衍生品定价中的应用展开,分析定价现状与挑战,阐述技术原理与应用,结合真实案例与代码给出实操方案,助力提升金融衍生品定价的准确性与效率。
Java 大视界 -- Java 大数据机器学习模型在金融衍生品定价中的创新方法与实践(166)
|
4月前
|
人工智能 自然语言处理 算法
算法及模型合规:刻不容缓的企业行动指南
随着AI技术迅猛发展,算法与模型成为企业数字化转型的核心。然而,国家密集出台多项法规,如《人工智能生成合成内容标识办法》等,并开展“清朗·整治AI技术滥用”专项行动,标志着AI监管进入严格阶段。算法备案从“可选项”变为“必选项”,未合规可能面临罚款甚至刑事责任。同时,多地提供备案奖励政策,合规既是规避风险的需要,也是把握政策红利和市场信任的机遇。企业需系统规划合规工作,从被动应对转向主动引领,以适应AI时代的挑战与机遇。

热门文章

最新文章