DataScience&ML:金融科技领域之风控的简介、类别、应用流程(定义目标变量→特征构建思路等)、案例集锦之详细攻略

简介: DataScience&ML:金融科技领域之风控的简介、类别、应用流程(定义目标变量→特征构建思路等)、案例集锦之详细攻略


目录

金融科技领域之风控的简介

1、风控指标相关概念或口径逻辑

金融科技领域之风控的类别

1、信贷风控

1.1、贷款

1.2、信用卡

金融科技领域之风控的案例应用

1、定义目标变量(good/bad)—全局考虑性价比

1.1.1、定义目标里的逾期天数(利用迁徙率(Flow Rate)表)—“逾期天数:90天以上”

1.1.2、定义目标里的观察期(利用elbow method手肘法则)—“观察期:2年内”

2、特征构建思路

2.0、理论结合实际应用场景构建新特征

2.1、RFMV指标

2.2、WOE变换

2.3、Vintage分析

3、机器学习模型的稳定性分析


金融科技领域之风控的简介

        风控,顾名思义,风险控制。风控包含了风险管理和内部控制,但在不同类型的企业中,风控的管理及控制的领域方向也会有所不同。风险可以分为信用风险、市场风险、操作风险、流动性风险、国家(政策)风险、法律风险、声誉风险和战略风险。

        一般地,金融风控平台利用联通数据资源优势和领先的数据建模能力,提供反欺诈、信息核验和风险评估服务。帮助合作伙伴解决事前预防、事中防控、事后失联客户复联等业务流程相关的风险控制问题,达到降低业务风险,避免损失的效果。做好风控,不仅仅能够给金融行业(如银行、保险)提升各种利润,还能给整个金融系统带来稳健性,防范大规模金融风险的发生。

1、风控指标相关概念或口径逻辑

相关文章DataScience&ML:金融科技领域之风控的风控指标/字段相关概念、口径逻辑之详细攻略

金融科技领域之风控的类别

1、信贷风控

银行的主要收入或者利润来源来自贷款和信用卡,简称信贷。贷款和信用卡,我们统称为信贷。他们都有着相似的风控逻辑。

1.1、贷款

银行借出去的钱,通过收取利息来赚取利润。但借出去的钱会有收不回的风险,因此风控在银行来说,是一个重要的研究课题。对于贷款的风控一般包括几个部分:

贷前风控

贷前调查是风控的第一道防线。主要是确认客户还款能力,是否存在欺诈等行为。举个例子,例如你贷款买房前,银行需要查看你的征信记录。

贷中风控

监督你的贷款使用情况,例如有没挪用,例如你贷的学费款竟然拿去买房,那银行发现了肯定就会找你。

贷后风控

管理实质贷款发放后指导完全收回之间的过程,即是有效回款的过程。其中也包括当还款人出现逾期时,如何去进行催收。

(1)、贷后风控

背景

当客户出现逾期时,如何催收才能保证成功率最大化,是一个值得研究的问题。

意义

债务催收是个数以千亿计的生意,催收成功率提高一点点,就能使得银行挽救数百万美元的资产。

某个银行,在一个人口千万级别的发展中国家,每个月的信贷也有数十亿美元。这里就取10亿美元吧,如果坏账率为3%,这就是3000万美元的坏账。

现在如果某银行设计了策略A,能使坏账率减少到1.5%。 后来又设计了策略B,使得坏账率减少到了0.9%。看起来这没有很大差别,都是很小的数字,但换个说法,策略A只能把50%的马上要变成坏账催的收回来,而策略B能把70%的坏账催收回来,那么,就能每个月给银行多创造600万美元的利润。

如果一个跨国银行能把同样的催收策略铺开到多个国家,覆盖十亿以上人口,那么就能每个月多创造数亿美元利润。

其实,如果某个国家所有银行都能把催收能力提高一点点,那么整个国家的金融坏账将减少数千亿,这对于金融系统的健康来说,是一个重大的贡献。

2008年的次贷危机

次贷,全称次级抵押贷款,是指一些贷款机构,向信用程度较差和收入不高的借款人提供的贷款(贷前风控没做好)。

美国等国家放松购房信贷标准,形成次级房贷市场。次级房屋信贷经过贷款机构及华尔街用财务工程方法,加以估算、组合、包装,就以票据或证券产品形式,在抵押二级市场上出卖、用高息吸引其它金融机构和对冲基金购买(贷后风控可谓没有)。

美国的房地产市场开始在2006年转差,美元利率多次加息,令次级房屋信贷的拖欠以及坏帐增加(需要贷后风控介入了),次级房屋信贷产品的价格大跌,直接令到欧美以及澳洲不少金融机构都出现财政危机,甚至面临破产。著名的雷曼兄弟就是这时候倒闭的。

因此,搞金融风控的同行们,应该给自己的工作一点自豪感,这个世界因为有你们,金融危机发生的概率已经降低了。

1.2、信用卡

发卡前

审核资质,防止欺诈。有的人开卡就是为了拆东墙补西墙

用卡中

监测你使用情况,例如有没盗刷,有没套现等等

还款

每个月都要还款,如果逾期未还,则催收;

更新中……

金融科技领域之风控的案例应用

创建数据仓库→ETL(Extract Transform Load)→上云→数据科学→BI

图来自

网络异常,图片无法展示
|

     实际上,整个流程并非都是我们挨个去做,例如Serving Infrastruture,运维部会帮我们弄好。但是,作为一个风控领域的数据科学家,要统筹全局,其实,写机器学习模型代码的时间占用日常工作时间不到十分之一。

1、定义目标变量(good/bad)—全局考虑性价比

       在风控项目中,目标变量虽然只有good和bad,即0和1两种,但定义目标变量的整个过程其实是非常复杂的,要充分考虑业务逻辑,与实际情况相结合。比如在Kaggle的信用卡数据集案例中,2年内逾期超过90天的客户定义为bad,否则都为good。可以看出,定义的label是由两个因素决定:

  • 逾期天数:超过90天;
  • 观察期:2年内;

       那么,这两个数字是如何决定的呢?为啥还要这么麻烦,直接逾期第一天就去催收不行吗?在实际业务中,既要保证坏账最小化,也要保证催收的体验,你总不能人家到期第一天忘了还10块钱的账单就派人上门催收吧?客户都给你赶跑了。

1.1.1、定义目标里的逾期天数(利用迁徙率(Flow Rate)表)—“逾期天数:90天以上”

参考文章DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略

1.1.2、定义目标里的观察期(利用elbow method手肘法则)—“观察期:2年内”

      如果一个客户开始逾期后(即超过还款期限一天),要达到90天以上的逾期少则需要3个月,多则可以无限多个月。

  • 如果观察期很短,会漏抓了很多客户;
  • 如果观察期太长,例如无限长,你确实能抓住100%的逾期在90天以上客户,但观察期太长了,逾期的客户一直没人理就会一直恶化。

      所以,一个合理的观察期很重要。为了找到一个合理的观察期,我们需要分析逾期月数与逾期客户总数的情况,例如某个银行,通过分析逾期月数与逾期客户数的历史数据,可以得到情况表如下所示:

观察期(月数) 客户逾期超90天 客户逾期超90天占比
3 650 65.00%
4 800 80.00%
5 880 88.00%
6 950 95.00%
7 960 96.00%
8 967 96.70%
9 970 97.00%
10或以上 1000 100.00%
总计 1000

      可以看到,逾期90以上的客户,95%的都发生在6个月内。但你也许会说,9个月能检测到97%,不是更好吗?但记得经济学里的“边际效用”这个词吗?意思是再增加投入,新增的产出会变少。用一个知乎上热门的词语来形容,就是“内卷”。我们分析时也是。再追加一个月观察期,对效用的提升不明显,反而引入更多风险。当“内卷”发生时,就不再增加观察期了。

      所以,可以利用elbow method法,也就是寻找曲线的“转折点”,就像手肘一样。(如果你熟悉k-means,那么你可能记得,在k-means里,我们决定怎么选择k值的一个算法是elbow method法。把上表plot出来,得到下面一个图,其中转折点(或者说‘手肘)用红圈划出来了:

      可知,当观察期为6个月时,就能够抓到很多的逾期客户。如果再加一个月,能抓到的增量也很少了,边际效用明显降低了很多。所以建议把观察期设置为6个月

      对于普通的信贷产品,一般情况下这个转折点还是很好观察到的。但看到这里你也许想问,如果没有明显的转折点(elbow),该怎么抉择呢?这就复杂了。但如果你的信贷产品真的找不到一个明显的elbow point,你画出来的曲线比上面的曲线平滑得多,怎么办呢?

      这确实是一个难题,且没有一个标准的答案。但你可以和商业部分探讨下面几个问题:当逾期超过90天的客户比例是多少时,我们的资产会出现亏损?然后你可以以这个比例作为嘈参照,选择响应的观察期。逾期90天是不是一个好的选择?能不收紧标准,把逾期天数检测缩短到60天,这样做对客户体验造成什么影响?

2、特征构建思路

         在风控领域,进行特征工程的时候,其实并不像kaggle比赛中如group by那么简单。在实际应用中,有些特征是需要根据大量的业务经验进行构建。一般构建特征的思想有以下几种。

2.0、理论结合实际应用场景构建新特征

       在实际应用场景,很多很根据业务背景,构造特征变量(或者称为衍生特征),比如BMI(身体质量指数)计算逻辑如下:BMI=体重÷身高2。(体重单位:千克;身高单位:米。)

       其实,构造衍生特征,似乎并没有可以套用的经验模板,只能靠数据的深度挖掘和探究了。

2.1、RFMV指标

相关文章

ML之FE:RFMV指标的简介、使用案例之详细攻略_一个处女座的程序猿的博客-CSDN博客

2.2、WOE变换

相关文章

DataScience:机器学习中特征工程之WOE编码—离散变量编码(有监督)_一个处女座的程序猿的博客-CSDN博客_woe编码

2.3、Vintage分析

Vintage分析也是帮助构建特征的方法。

相关文章

ML之FE:Vintage曲线的简介、计算逻辑、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客

3、机器学习模型的稳定性分析

ML:机器学习模型的稳定性分析简介、常见的解决方法之详细攻略

参考文章https://zhuanlan.zhihu.com/p/144732622


相关文章
|
机器学习/深度学习 数据采集 人工智能
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
中科大提出统一输入过滤框架InFi:首次理论分析可过滤性,支持全数据模态
249 0
|
机器学习/深度学习 运维 DataWorks
阿里云 PAI 产品收入预测挖掘演示实验 | 学习笔记
快速学习阿里云 PAI 产品收入预测挖掘演示实验
163 0
阿里云 PAI 产品收入预测挖掘演示实验 | 学习笔记
|
7月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
RFM用户分层模型|原理+Python全流程实现
详细解读如何使用RFM模型进行用户分层(附代码)
RFM用户分层模型|原理+Python全流程实现
|
算法 数据挖掘 Python
用python统计数据分析PAT甲乙级算法的考试和训练策略,附加横向设计图
python是做统计数据的好工具,在学习程序设计时,我们发现算法是一个难点,我们从’简单模拟’, ‘查找元素’, ‘图形输出’, ‘进制转换’, ‘字符串处理’,‘排序’,‘散列’,‘贪心’,‘二分’,‘two pointers’,‘其他’,‘数学’,‘链表’,几个角度分析算法的考试和训练策略,下一篇文章,分析数据结构的算法的考试和训练策略,如果你正在准备PAT甲乙级算法的考试和训练,会大有帮助,祝早日金榜题名。
用python统计数据分析PAT甲乙级算法的考试和训练策略,附加横向设计图
|
7月前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)(一)
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)(一)
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)(一)
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)(二)
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)(二)