DataScience&ML:金融科技领域之风控的简介、类别、应用流程(定义目标变量→特征构建思路等)、案例集锦之详细攻略

简介: DataScience&ML:金融科技领域之风控的简介、类别、应用流程(定义目标变量→特征构建思路等)、案例集锦之详细攻略


目录

金融科技领域之风控的简介

1、风控指标相关概念或口径逻辑

金融科技领域之风控的类别

1、信贷风控

1.1、贷款

1.2、信用卡

金融科技领域之风控的案例应用

1、定义目标变量(good/bad)—全局考虑性价比

1.1.1、定义目标里的逾期天数(利用迁徙率(Flow Rate)表)—“逾期天数:90天以上”

1.1.2、定义目标里的观察期(利用elbow method手肘法则)—“观察期:2年内”

2、特征构建思路

2.0、理论结合实际应用场景构建新特征

2.1、RFMV指标

2.2、WOE变换

2.3、Vintage分析

3、机器学习模型的稳定性分析


金融科技领域之风控的简介

        风控,顾名思义,风险控制。风控包含了风险管理和内部控制,但在不同类型的企业中,风控的管理及控制的领域方向也会有所不同。风险可以分为信用风险、市场风险、操作风险、流动性风险、国家(政策)风险、法律风险、声誉风险和战略风险。

        一般地,金融风控平台利用联通数据资源优势和领先的数据建模能力,提供反欺诈、信息核验和风险评估服务。帮助合作伙伴解决事前预防、事中防控、事后失联客户复联等业务流程相关的风险控制问题,达到降低业务风险,避免损失的效果。做好风控,不仅仅能够给金融行业(如银行、保险)提升各种利润,还能给整个金融系统带来稳健性,防范大规模金融风险的发生。

1、风控指标相关概念或口径逻辑

相关文章DataScience&ML:金融科技领域之风控的风控指标/字段相关概念、口径逻辑之详细攻略

金融科技领域之风控的类别

1、信贷风控

银行的主要收入或者利润来源来自贷款和信用卡,简称信贷。贷款和信用卡,我们统称为信贷。他们都有着相似的风控逻辑。

1.1、贷款

银行借出去的钱,通过收取利息来赚取利润。但借出去的钱会有收不回的风险,因此风控在银行来说,是一个重要的研究课题。对于贷款的风控一般包括几个部分:

贷前风控

贷前调查是风控的第一道防线。主要是确认客户还款能力,是否存在欺诈等行为。举个例子,例如你贷款买房前,银行需要查看你的征信记录。

贷中风控

监督你的贷款使用情况,例如有没挪用,例如你贷的学费款竟然拿去买房,那银行发现了肯定就会找你。

贷后风控

管理实质贷款发放后指导完全收回之间的过程,即是有效回款的过程。其中也包括当还款人出现逾期时,如何去进行催收。

(1)、贷后风控

背景

当客户出现逾期时,如何催收才能保证成功率最大化,是一个值得研究的问题。

意义

债务催收是个数以千亿计的生意,催收成功率提高一点点,就能使得银行挽救数百万美元的资产。

某个银行,在一个人口千万级别的发展中国家,每个月的信贷也有数十亿美元。这里就取10亿美元吧,如果坏账率为3%,这就是3000万美元的坏账。

现在如果某银行设计了策略A,能使坏账率减少到1.5%。 后来又设计了策略B,使得坏账率减少到了0.9%。看起来这没有很大差别,都是很小的数字,但换个说法,策略A只能把50%的马上要变成坏账催的收回来,而策略B能把70%的坏账催收回来,那么,就能每个月给银行多创造600万美元的利润。

如果一个跨国银行能把同样的催收策略铺开到多个国家,覆盖十亿以上人口,那么就能每个月多创造数亿美元利润。

其实,如果某个国家所有银行都能把催收能力提高一点点,那么整个国家的金融坏账将减少数千亿,这对于金融系统的健康来说,是一个重大的贡献。

2008年的次贷危机

次贷,全称次级抵押贷款,是指一些贷款机构,向信用程度较差和收入不高的借款人提供的贷款(贷前风控没做好)。

美国等国家放松购房信贷标准,形成次级房贷市场。次级房屋信贷经过贷款机构及华尔街用财务工程方法,加以估算、组合、包装,就以票据或证券产品形式,在抵押二级市场上出卖、用高息吸引其它金融机构和对冲基金购买(贷后风控可谓没有)。

美国的房地产市场开始在2006年转差,美元利率多次加息,令次级房屋信贷的拖欠以及坏帐增加(需要贷后风控介入了),次级房屋信贷产品的价格大跌,直接令到欧美以及澳洲不少金融机构都出现财政危机,甚至面临破产。著名的雷曼兄弟就是这时候倒闭的。

因此,搞金融风控的同行们,应该给自己的工作一点自豪感,这个世界因为有你们,金融危机发生的概率已经降低了。

1.2、信用卡

发卡前

审核资质,防止欺诈。有的人开卡就是为了拆东墙补西墙

用卡中

监测你使用情况,例如有没盗刷,有没套现等等

还款

每个月都要还款,如果逾期未还,则催收;

更新中……

金融科技领域之风控的案例应用

创建数据仓库→ETL(Extract Transform Load)→上云→数据科学→BI

图来自

网络异常,图片无法展示
|

     实际上,整个流程并非都是我们挨个去做,例如Serving Infrastruture,运维部会帮我们弄好。但是,作为一个风控领域的数据科学家,要统筹全局,其实,写机器学习模型代码的时间占用日常工作时间不到十分之一。

1、定义目标变量(good/bad)—全局考虑性价比

       在风控项目中,目标变量虽然只有good和bad,即0和1两种,但定义目标变量的整个过程其实是非常复杂的,要充分考虑业务逻辑,与实际情况相结合。比如在Kaggle的信用卡数据集案例中,2年内逾期超过90天的客户定义为bad,否则都为good。可以看出,定义的label是由两个因素决定:

  • 逾期天数:超过90天;
  • 观察期:2年内;

       那么,这两个数字是如何决定的呢?为啥还要这么麻烦,直接逾期第一天就去催收不行吗?在实际业务中,既要保证坏账最小化,也要保证催收的体验,你总不能人家到期第一天忘了还10块钱的账单就派人上门催收吧?客户都给你赶跑了。

1.1.1、定义目标里的逾期天数(利用迁徙率(Flow Rate)表)—“逾期天数:90天以上”

参考文章DataScience&ML:金融科技领域之迁徙率(Flow Rate)表的简介、案例应用之详细攻略

1.1.2、定义目标里的观察期(利用elbow method手肘法则)—“观察期:2年内”

      如果一个客户开始逾期后(即超过还款期限一天),要达到90天以上的逾期少则需要3个月,多则可以无限多个月。

  • 如果观察期很短,会漏抓了很多客户;
  • 如果观察期太长,例如无限长,你确实能抓住100%的逾期在90天以上客户,但观察期太长了,逾期的客户一直没人理就会一直恶化。

      所以,一个合理的观察期很重要。为了找到一个合理的观察期,我们需要分析逾期月数与逾期客户总数的情况,例如某个银行,通过分析逾期月数与逾期客户数的历史数据,可以得到情况表如下所示:

观察期(月数) 客户逾期超90天 客户逾期超90天占比
3 650 65.00%
4 800 80.00%
5 880 88.00%
6 950 95.00%
7 960 96.00%
8 967 96.70%
9 970 97.00%
10或以上 1000 100.00%
总计 1000

      可以看到,逾期90以上的客户,95%的都发生在6个月内。但你也许会说,9个月能检测到97%,不是更好吗?但记得经济学里的“边际效用”这个词吗?意思是再增加投入,新增的产出会变少。用一个知乎上热门的词语来形容,就是“内卷”。我们分析时也是。再追加一个月观察期,对效用的提升不明显,反而引入更多风险。当“内卷”发生时,就不再增加观察期了。

      所以,可以利用elbow method法,也就是寻找曲线的“转折点”,就像手肘一样。(如果你熟悉k-means,那么你可能记得,在k-means里,我们决定怎么选择k值的一个算法是elbow method法。把上表plot出来,得到下面一个图,其中转折点(或者说‘手肘)用红圈划出来了:

      可知,当观察期为6个月时,就能够抓到很多的逾期客户。如果再加一个月,能抓到的增量也很少了,边际效用明显降低了很多。所以建议把观察期设置为6个月

      对于普通的信贷产品,一般情况下这个转折点还是很好观察到的。但看到这里你也许想问,如果没有明显的转折点(elbow),该怎么抉择呢?这就复杂了。但如果你的信贷产品真的找不到一个明显的elbow point,你画出来的曲线比上面的曲线平滑得多,怎么办呢?

      这确实是一个难题,且没有一个标准的答案。但你可以和商业部分探讨下面几个问题:当逾期超过90天的客户比例是多少时,我们的资产会出现亏损?然后你可以以这个比例作为嘈参照,选择响应的观察期。逾期90天是不是一个好的选择?能不收紧标准,把逾期天数检测缩短到60天,这样做对客户体验造成什么影响?

2、特征构建思路

         在风控领域,进行特征工程的时候,其实并不像kaggle比赛中如group by那么简单。在实际应用中,有些特征是需要根据大量的业务经验进行构建。一般构建特征的思想有以下几种。

2.0、理论结合实际应用场景构建新特征

       在实际应用场景,很多很根据业务背景,构造特征变量(或者称为衍生特征),比如BMI(身体质量指数)计算逻辑如下:BMI=体重÷身高2。(体重单位:千克;身高单位:米。)

       其实,构造衍生特征,似乎并没有可以套用的经验模板,只能靠数据的深度挖掘和探究了。

2.1、RFMV指标

相关文章

ML之FE:RFMV指标的简介、使用案例之详细攻略_一个处女座的程序猿的博客-CSDN博客

2.2、WOE变换

相关文章

DataScience:机器学习中特征工程之WOE编码—离散变量编码(有监督)_一个处女座的程序猿的博客-CSDN博客_woe编码

2.3、Vintage分析

Vintage分析也是帮助构建特征的方法。

相关文章

ML之FE:Vintage曲线的简介、计算逻辑、案例应用之详细攻略_一个处女座的程序猿的博客-CSDN博客

3、机器学习模型的稳定性分析

ML:机器学习模型的稳定性分析简介、常见的解决方法之详细攻略

参考文章https://zhuanlan.zhihu.com/p/144732622


相关文章
|
1月前
|
弹性计算 Serverless API
海量大模型如何一键部署上云,函数计算 x ModelScope 社区给出答案
得益于阿里云函数计算的产品能力,魔搭 SwingDeploy 后的模型推理 API 服务默认具备极致弹性伸缩(缩零能力)、GPU 虚拟化(最小 1GB 显存粒度)、异步调用能力、按用付费、闲置计费等能力,这些能力帮助算法工程师大大加快了魔搭开源模型投入生产的生命周期。
|
30天前
|
人工智能 自然语言处理 语音技术
简介阿里云大模型的基本概况和产品矩阵
阿里云在大模型领域深入研究,推出了通义千问、通义万相、通义听悟等产品,涵盖自然语言处理、图像生成、语音识别等多个方面,同时提供行业专属模型和MaaS平台,致力于为企业和个人用户提供高效、智能的服务。
|
5月前
|
机器学习/深度学习 人工智能 JSON
人工智能平台PAI产品使用合集之创建特征视图时遇到报错,该如何排查
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 开发框架 数据可视化
我们可以从系统工程的角度来讨论如何优化组织架构,并给出一些可能涉及的Python应用领域的示例。
我们可以从系统工程的角度来讨论如何优化组织架构,并给出一些可能涉及的Python应用领域的示例。
|
5月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
数据可视化 Python
python中Copula在多元联合分布建模可视化2实例合集|附数据代码
python中Copula在多元联合分布建模可视化2实例合集|附数据代码
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何配置DSSM模型负采样item表的schema
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
人工智能 异构计算 Python
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
字节跳动最新研究AI项目:一张图片组合一组动作就可以生成毫无违和感的视频!
141 0
|
6月前
|
存储 搜索推荐 分布式数据库
用户画像标签系统体系解释
用户画像标签系统体系解释
329 1