目录
1.1.1、定义目标里的逾期天数(利用迁徙率(Flow Rate)表)—“逾期天数:90天以上”
1.1.2、定义目标里的观察期(利用elbow method手肘法则)—“观察期:2年内”
金融科技领域之风控的简介
风控,顾名思义,风险控制。风控包含了风险管理和内部控制,但在不同类型的企业中,风控的管理及控制的领域方向也会有所不同。风险可以分为信用风险、市场风险、操作风险、流动性风险、国家(政策)风险、法律风险、声誉风险和战略风险。
一般地,金融风控平台利用联通数据资源优势和领先的数据建模能力,提供反欺诈、信息核验和风险评估服务。帮助合作伙伴解决事前预防、事中防控、事后失联客户复联等业务流程相关的风险控制问题,达到降低业务风险,避免损失的效果。做好风控,不仅仅能够给金融行业(如银行、保险)提升各种利润,还能给整个金融系统带来稳健性,防范大规模金融风险的发生。
1、风控指标相关概念或口径逻辑
相关文章:DataScience&ML:金融科技领域之风控的风控指标/字段相关概念、口径逻辑之详细攻略
金融科技领域之风控的类别
1、信贷风控
银行的主要收入或者利润来源来自贷款和信用卡,简称信贷。贷款和信用卡,我们统称为信贷。他们都有着相似的风控逻辑。
1.1、贷款
银行借出去的钱,通过收取利息来赚取利润。但借出去的钱会有收不回的风险,因此风控在银行来说,是一个重要的研究课题。对于贷款的风控一般包括几个部分:
贷前风控 |
贷前调查是风控的第一道防线。主要是确认客户还款能力,是否存在欺诈等行为。举个例子,例如你贷款买房前,银行需要查看你的征信记录。 |
贷中风控 |
监督你的贷款使用情况,例如有没挪用,例如你贷的学费款竟然拿去买房,那银行发现了肯定就会找你。 |
贷后风控 |
管理实质贷款发放后指导完全收回之间的过程,即是有效回款的过程。其中也包括当还款人出现逾期时,如何去进行催收。 |
(1)、贷后风控
背景 |
当客户出现逾期时,如何催收才能保证成功率最大化,是一个值得研究的问题。 |
意义 |
债务催收是个数以千亿计的生意,催收成功率提高一点点,就能使得银行挽救数百万美元的资产。 |
某个银行,在一个人口千万级别的发展中国家,每个月的信贷也有数十亿美元。这里就取10亿美元吧,如果坏账率为3%,这就是3000万美元的坏账。 现在如果某银行设计了策略A,能使坏账率减少到1.5%。 后来又设计了策略B,使得坏账率减少到了0.9%。看起来这没有很大差别,都是很小的数字,但换个说法,策略A只能把50%的马上要变成坏账催的收回来,而策略B能把70%的坏账催收回来,那么,就能每个月给银行多创造600万美元的利润。 如果一个跨国银行能把同样的催收策略铺开到多个国家,覆盖十亿以上人口,那么就能每个月多创造数亿美元利润。 其实,如果某个国家所有银行都能把催收能力提高一点点,那么整个国家的金融坏账将减少数千亿,这对于金融系统的健康来说,是一个重大的贡献。 |
|
2008年的次贷危机 |
次贷,全称次级抵押贷款,是指一些贷款机构,向信用程度较差和收入不高的借款人提供的贷款(贷前风控没做好)。 |
美国等国家放松购房信贷标准,形成次级房贷市场。次级房屋信贷经过贷款机构及华尔街用财务工程方法,加以估算、组合、包装,就以票据或证券产品形式,在抵押二级市场上出卖、用高息吸引其它金融机构和对冲基金购买(贷后风控可谓没有)。 美国的房地产市场开始在2006年转差,美元利率多次加息,令次级房屋信贷的拖欠以及坏帐增加(需要贷后风控介入了),次级房屋信贷产品的价格大跌,直接令到欧美以及澳洲不少金融机构都出现财政危机,甚至面临破产。著名的雷曼兄弟就是这时候倒闭的。 因此,搞金融风控的同行们,应该给自己的工作一点自豪感,这个世界因为有你们,金融危机发生的概率已经降低了。 |
1.2、信用卡
发卡前 |
审核资质,防止欺诈。有的人开卡就是为了拆东墙补西墙 |
用卡中 |
监测你使用情况,例如有没盗刷,有没套现等等 |
卡还款 |
每个月都要还款,如果逾期未还,则催收; |
更新中……
金融科技领域之风控的案例应用
创建数据仓库→ETL(Extract Transform Load)→上云→数据科学→BI
图来自:
实际上,整个流程并非都是我们挨个去做,例如Serving Infrastruture,运维部会帮我们弄好。但是,作为一个风控领域的数据科学家,要统筹全局,其实,写机器学习模型代码的时间占用日常工作时间不到十分之一。
1、定义目标变量(good/bad)—全局考虑性价比
在风控项目中,目标变量虽然只有good和bad,即0和1两种,但定义目标变量的整个过程其实是非常复杂的,要充分考虑业务逻辑,与实际情况相结合。比如在Kaggle的信用卡数据集案例中,2年内逾期超过90天的客户定义为bad,否则都为good。可以看出,定义的label是由两个因素决定:
- 逾期天数:超过90天;
- 观察期:2年内;
那么,这两个数字是如何决定的呢?为啥还要这么麻烦,直接逾期第一天就去催收不行吗?在实际业务中,既要保证坏账最小化,也要保证催收的体验,你总不能人家到期第一天忘了还10块钱的账单就派人上门催收吧?客户都给你赶跑了。
1.1.1、定义目标里的逾期天数(利用迁徙率(Flow Rate)表)—“逾期天数:90天以上”
参考文章:DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略
1.1.2、定义目标里的观察期(利用elbow method手肘法则)—“观察期:2年内”
如果一个客户开始逾期后(即超过还款期限一天),要达到90天以上的逾期少则需要3个月,多则可以无限多个月。
- 如果观察期很短,会漏抓了很多客户;
- 如果观察期太长,例如无限长,你确实能抓住100%的逾期在90天以上客户,但观察期太长了,逾期的客户一直没人理就会一直恶化。
所以,一个合理的观察期很重要。为了找到一个合理的观察期,我们需要分析逾期月数与逾期客户总数的情况,例如某个银行,通过分析逾期月数与逾期客户数的历史数据,可以得到情况表如下所示:
观察期(月数) | 客户逾期超90天 | 客户逾期超90天占比 |
3 | 650 | 65.00% |
4 | 800 | 80.00% |
5 | 880 | 88.00% |
6 | 950 | 95.00% |
7 | 960 | 96.00% |
8 | 967 | 96.70% |
9 | 970 | 97.00% |
10或以上 | 1000 | 100.00% |
总计 | 1000 |
可以看到,逾期90以上的客户,95%的都发生在6个月内。但你也许会说,9个月能检测到97%,不是更好吗?但记得经济学里的“边际效用”这个词吗?意思是再增加投入,新增的产出会变少。用一个知乎上热门的词语来形容,就是“内卷”。我们分析时也是。再追加一个月观察期,对效用的提升不明显,反而引入更多风险。当“内卷”发生时,就不再增加观察期了。
所以,可以利用elbow method法,也就是寻找曲线的“转折点”,就像手肘一样。(如果你熟悉k-means,那么你可能记得,在k-means里,我们决定怎么选择k值的一个算法是elbow method法。把上表plot出来,得到下面一个图,其中转折点(或者说‘手肘)用红圈划出来了:
可知,当观察期为6个月时,就能够抓到很多的逾期客户。如果再加一个月,能抓到的增量也很少了,边际效用明显降低了很多。所以建议把观察期设置为6个月。
对于普通的信贷产品,一般情况下这个转折点还是很好观察到的。但看到这里你也许想问,如果没有明显的转折点(elbow),该怎么抉择呢?这就复杂了。但如果你的信贷产品真的找不到一个明显的elbow point,你画出来的曲线比上面的曲线平滑得多,怎么办呢?
这确实是一个难题,且没有一个标准的答案。但你可以和商业部分探讨下面几个问题:当逾期超过90天的客户比例是多少时,我们的资产会出现亏损?然后你可以以这个比例作为嘈参照,选择响应的观察期。逾期90天是不是一个好的选择?能不收紧标准,把逾期天数检测缩短到60天,这样做对客户体验造成什么影响?
2、特征构建思路
在风控领域,进行特征工程的时候,其实并不像kaggle比赛中如group by那么简单。在实际应用中,有些特征是需要根据大量的业务经验进行构建。一般构建特征的思想有以下几种。
2.0、理论结合实际应用场景构建新特征
在实际应用场景,很多很根据业务背景,构造特征变量(或者称为衍生特征),比如BMI(身体质量指数)计算逻辑如下:BMI=体重÷身高2。(体重单位:千克;身高单位:米。)
其实,构造衍生特征,似乎并没有可以套用的经验模板,只能靠数据的深度挖掘和探究了。
2.1、RFMV指标
相关文章
ML之FE:RFMV指标的简介、使用案例之详细攻略_一个处女座的程序猿的博客-CSDN博客
2.2、WOE变换
相关文章
DataScience:机器学习中特征工程之WOE编码—离散变量编码(有监督)_一个处女座的程序猿的博客-CSDN博客_woe编码
2.3、Vintage分析
Vintage分析也是帮助构建特征的方法。
相关文章
ML之FE:Vintage曲线的简介、计算逻辑、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客
3、机器学习模型的稳定性分析
ML:机器学习模型的稳定性分析简介、常见的解决方法之详细攻略
参考文章:https://zhuanlan.zhihu.com/p/144732622