关于互联网金融授信产品的风控建模

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 关于互联网金融授信产品的风控建模

随着互联网渗透到生活中的各个角落,金融行业也似乎找到了与互联网的完美结合。互联网金融作为一个新的行业如今正在上升的势头上,因而也涌现了越来越多的P2P公司。但是作为一个互金公司来讲,风险永远是一个最重要的话题。那么如何利用机器学习以及大数据技术来降低风险呢?如何建立信用评分的模型呢?

本文将针对这些问题简单介绍互金行业中授信产品的风控建模过程,内容主要如下


  • 信用风险定义
  • 信用风险评分卡类型
  • 信用评分模型建立的基本流程


1信用风险定义


风险管理的概念


风险管理最早起源于美国。1930年由美国管理协会保险部最先倡导风险管理,后面在全球流行开来,随着互联网的迅猛发展,大数据、数据挖掘和机器学习等新兴技术开始出现,让风险管理更为精准。


他们通过收集银行系统本身的征信数据以及用户在互联网上的的各种数据,包括人际关系、历史消费行为、身份特征等,通过大数据“画像”技术,对用户进行全面的定位,由此来预测用户的履约能力、降低信贷风险。


什么是信用风险?


信用风险又称违约风险,是指借款人、证券发行人或交易对方因种种原因,不愿或无力履行合同条件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。


万事都有风险,但对于金融行业来讲,风险控制尤为重要。如何能够在控制风险的情况下持续盈利才是最终的赢家,如果没有风险控制,那么后果将会不堪设想。近几年来消费金融一直在迅速增长,P2P公司层出不穷,比如汽车贷款,住房贷款,信用卡贷款,小额贷款等,增长趋势迅猛。当然,增长迅猛的同时也出现了很多P2P暴雷跑路的公司。


究其原因有很多,其中一个就是风险控制。对于海量的用户数据处理,传统的人工授信方式显然是很乏力的,因此现在大多互联网金融P2P公司都采用机器学习、大数据等技术对风险进行自动化评估,来最大程度的降低风险。


当然,这些技术的应用并不能百分百的保证零风险,因为有很多人为因素是不可控的,但是信用风控技术在很大程度上帮助金融企业进行了很好的风险管控,通过降低风险减少损失来间接增加利润。


2 信用风险评分卡类型


信用评级


用过信用卡的朋友都知道,开卡需要申请(筛选好坏用户),消费了就需要定期进行债务偿还,如果不偿还就有人发短信催你。因此,信用评级可根据用户的整个使用周期分为以下四种类型:

  • 申请者评级(Application):个人客户申请相应金融产品,对用户进行筛选分类,判断时好时坏,是否通过申请(A卡)
  • 行为评级(Behavier):个人客户通过申请后在使用期间的历史行为数据进行评级,对客户可能出现的逾期、延期等行为进行预测(B卡)
  • 催收评级(Collection):对业务中存量客户是否需要催收的预测(C卡)
  • 欺诈评级(Fraud):业务中新客户可能存在的欺诈行为的预测(F卡)


每个评级阶段的模型都是不一样的,因为每个阶段的用户显现的特征都不一样,因此需要针对各个阶段进行单独的模型开发。


信用评分卡


尽管有了评级分类,但是信用对于我们来说仍然是一个比较抽象的概念,因此可以通过量化的方式来更直观的使用信用,而分数是一种不错的量化方式,通过分数的高低来衡量风险概率,分数越高代表信用越好。信用评分卡就是通过大数据的统计分析,根据用户的各种资料信息,对用户信用进行评估(打分)。


根据以上信用评级,相应的可以分为四种评分卡:

  • 申请评分卡(A卡)
  • 行为评分卡(B卡)
  • 催收评分卡(C卡)
  • 欺诈评分卡(F卡)


3 信用评分建模的基本流程


在开发信用风险模型之前,首先要明确我们需要解决的问题,确定评分卡模型的类别。下面将对申请评分卡建模(主要目的是区分好坏客户)流程进行简单的介绍。


(1)数据获取


除了企业内部自有的数据外,还有第三方机构数据支持,比如芝麻信用,征信局等。通过大数据分析用户的各种数据来达到最终目的,数据维度很广,可以包括:用户基础属性,用户行为,用户网购,用户APP行为等。在数据质量不差的情况下,数量越多越好,能留的一个不落下,后续再进行甄别筛选。


这部分的技术栈主要有:Mysql,Hive,Hbase,Spark,Python等。


(2)EDA数据探索


数据探索也是很重要的一步,主要考察数据的质量,包括:数据缺失值,数据异常值,数据一致性,数据分布特征,以及数据之间的关联性等。通常可以使用描述性统计指标,如均值,中位数,众数,方差/标准差等进行宏观上的度量,也可以使用可视化方法辅助进行数据分布,以及关联性等的初步分析工作。


  • 缺失值处理


根据缺失情况(是否随机,以及缺失量等)可选择使用均值,众数,中位数等填充,也可以用机器学习模型来填充缺失值(常见算法有随机森林,决策树,kNN等)。


具体使用方法可参考:【Python数据分析基础】: 数据缺失值处理


  • 异常值处理


可根据异常的情况考虑使用3∂原则,箱线图,散点图,基于距离,基于密度,基于聚类等一系列的方法进行离群点检测。对于异常值的处理可以采用移除,平均值修正,视为缺失值,或者不处理等。


具体使用方法可参考:【Python数据分析基础】: 异常值检测和处理


  • 数据分布以及关联性


可以考虑结合可视化的方法进一步的观察:数据分布是否均衡,数据特征之间的联系,以及数据特征与目标变量之间的联系等进行了解,比如下面的探索性分析:

微信图片_20220218133631.jpg微信图片_20220218133635.jpg微信图片_20220218133635.jpg

(3)数据预处理


数据预处理主要包括特征转换,特征编码,特征选择,特征共线性处理,以及创建衍生变量等一系列的处理方法。


  • 特征转换和编码

在信用评分模型的变量选择中,如果使用逻辑回归模型,那么就需对所有特征进行分箱离散化(一般是先细分再粗分),这样可以增加模型对非线性的表达,让模型更稳定。然后再进行woe编码,因为woe的转换公式与逻辑回归模型上非常相似,便于生成评分系统。


  • 特征选择

特征选择,在数据中是非常中重要,目的在于帮助我们挑选出最有意义的特征。选择特征最终目的是挑选能区分好用户或坏用户的强相关特征。

根据所使用的模型可以通过基尼系数或信息价值IV找到显著特征项,也可以通过LASSO、LR、RF模型等对特征做重要性的筛选。当然,还有很多其它的方法,这里仅介绍这几种。

  • IV:基于woe编码,可以衡量特征信息重要程序;
  • LASSO:主要适合基于L1的正则惩罚过滤对区分好坏用户不重要的特征;
  • LR:通过拟合的参数排序得到特征的重要性程度;
  • RF:集成学习(bagging),依据算法的附加功能进行特征的重要性排序;


最后要说的是,特征选择要结合业务,根据业务的理解挑选解释型强且权重较大的特征变量。


(4)模型建立


模型建立会根据实际情况进行选择,比如是否要使用单模型,或者在单模型中各种模型好坏的比较而最终确认。


在信用评分卡建模中,用到最常用的方法就是逻辑回归(LR)。虽然是传统的模型,但是由于其自身特点,加上自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式,这对于区分好坏用户以及评分卡的建立非常适用。目前对于它的使用和部署上线等已经非常成熟,是很多企业的不二选择。


除了LR外,神经网络,Xgboost等高级模型也会被使用,不过综合考虑LR目前能够满足大部分的需求且部署上线容易。


(5)模型评估


针对信用评分卡应用的评估模型有很多,包括:ROC/AUC,KS,PSI,LIFT等一些评估方法,下面着重介绍两个ROC和KS值。


  • ROC/AUC

ROC基于混淆矩阵,对于数据类别不均衡有很好的效果。ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高(曲线越偏左上越好),即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别,AUC系数代表曲线下的面积,不依赖于阈值,AUC值越高,模型的风险区分能力越强。

微信图片_20220218133753.jpgimage.gif

  • KS值

KS值表示了模型正负区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.4即可认为模型有比较好的预测准确性,KS值只能反映出哪个分段是区分最大的,而不能总体反映出所有分段的效果。

微信图片_20220218133815.jpg

下面是一个真实的在线授信产品的风控建模的流程图,可参考进行理解:

微信图片_20220218133817.jpg


以上是对信用评分分类以及风控建模基本流程的介绍,欢迎大家指正。对于文中提及的一些细节部分以及Python编程实现,后续会与大家慢慢分享。


参考:

https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

https://xiaozhuanlan.com/topic/2456318790

https://zhuanlan.zhihu.com/p/36263276


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
9天前
|
机器学习/深度学习 自然语言处理 监控
金融行业的大数据风控模型:构建安全高效的信用评估体系
金融机构借助大数据风控提升信贷效率,通过数据收集、清洗、特征工程、模型构建与评估来识别风险。关键技术涉及机器学习、深度学习、NLP和实时处理。以下是一个Python风控模型构建的简例,展示了从数据预处理到模型训练、评估的过程,并提及实时监控预警的重要性。该文旨在阐述大数据风控的核心要素和关键技术,并提供基础的代码实现概念。【6月更文挑战第23天】
50 8
|
16天前
|
机器学习/深度学习 数据采集 算法
机器学习在金融风控中的角色:前沿技术助力风险防控
【6月更文挑战第18天】机器学习正重塑金融风控,提升风险防控效能。通过信贷风险评估、反欺诈识别和市场风险管理,技术实现精准预测和高效应对。高效率、精确性和适应性是关键优势,但数据质量、多样性和模型可解释性仍是挑战。未来,机器学习将在金融风控领域发挥更大作用。
|
8月前
|
机器学习/深度学习 人工智能 监控
如何利用AI实现银行存量客户的营销?
金融行业是当今大数据、人工智能应用最广、最深的领域之一。随着数据仓库和数据科学的发展,以银行为代表的金融行业企业拥有了海量数据,应运而生了金融领域的大数据分析、智能营销等大数据和人工智能的应用。其中针对存量客户的智能营销成为银行业的一项重要策略。
|
12月前
|
SQL 机器学习/深度学习 人工智能
星熠案例:基于“隐语”多方安全分析的智能化理赔
星熠案例:基于“隐语”多方安全分析的智能化理赔
197 0
星熠案例:基于“隐语”多方安全分析的智能化理赔
|
存储 机器学习/深度学习 分布式计算
当金融风控遇上人工智能,众安金融的实时特征平台实践
随着企业数字化转型升级,线上业务呈现多场景、多渠道、多元化的特征。数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求。在庞大分散、高并发的数据来源背景下,数据的实时处理能力成为企业提升竞争力的一大因素。今天分享的是众安金融实时特征平台实践。
340 0
当金融风控遇上人工智能,众安金融的实时特征平台实践
|
机器学习/深度学习 人工智能 运维
客户分享:智能风控 未来已来|学习笔记
快速学习客户分享:智能风控 未来已来。
217 0
客户分享:智能风控 未来已来|学习笔记
|
机器学习/深度学习 算法 搜索推荐
大数据时代,如何构建精准用户画像,直击精细化运营
移动互联网时代,精细化运营逐渐成为企业发展的重要竞争力,“用户画像”的概念也应运而生。用户画像是指,在大数据时代,企业通过对海量数据信息进行清洗、聚类、分析,将数据抽象成标签,再利用这些标签将用户形象具体化的过程。
2355 0
|
数据挖掘
金融行业数据分析
本文研究全球及中国市场金融行业数据分析现状及未来发展趋势,侧重分析全球及中国市场的主要企业,同时对比北美、欧洲、中国、日本、东南亚和印度等地区的现状及未来发展趋势
|
机器学习/深度学习 人工智能 运维
智能风控未来已来
本文主要会分享三个方面的内容,由小红书反作弊的策略和算法负责人 汪浩然讲讲他和阿里风控的故事、阿里云的风控产品赋能以及阿里的机器学习平台赋能,最后介绍一下智能风控以及智能风控依靠的云计算能力。
5141 0
智能风控未来已来