ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略

简介: ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略


目录

Vintage曲线简介—通过葡萄酒产业理解Vintage曲线

(1)、Vintage来源

(2)、Vintage曲线的意义

Vintage曲线应用案例扩展—信贷领域

(1)、葡萄酒VS信贷→Vintage曲线的意义

(2)、信贷领域待确定的指标——账户表现期—信贷产品Vintage曲线挖掘

(3)、Vintage曲线绘制逻辑


Vintage曲线简介—通过葡萄酒产业理解Vintage曲线

(1)、Vintage来源

       最初,Vintage原来的意思是,特定年份酿制的葡萄酒。由于每年采摘的葡萄会受到日照、气温、降水等因素的影响,最终酿造的葡萄酒品质会存在差异。在窖藏一定年份后,葡萄酒的品质将趋于稳定,也就是品质成熟,这段年份数被称为成熟期(maturity)。

       Vintage 分析原来用于评估不同年份的葡萄酒的品质,随着窖藏时间的推移而发生的变化。简便起见,我们以酒精浓度作为衡量葡萄酒品质的标准,约定:浓度越高,品质越好。首先,记录入窖年份作为该批次葡萄酒的标签,这也被称为Vintage或者Cohort。之后,我们将每年定期抽样测量酒精浓度,保存记录数据,如图所示。

       经过几年的数据积累,我们就可以绘制出酒精浓度随时间变化的Vintage曲线。俗话说,酒越酿越醇,Vintage曲线通常是单调递增的。

(2)、Vintage曲线的意义

       葡萄酒的Vintage曲线分析流程图如下所示:

Vintage曲线可以做什么呢?

1)、分析变化规律:评估不同年份的葡萄酒的品质随着窖藏时间推移的变化规律。比如,**年份的葡萄酒浓度在入窖第1年就能达到较高的水平,但上升缓慢;**年份的葡萄酒浓度,虽然起点低,但上升快。

2)、确定最终品质:Vintage曲线最终稳定值,表明了这批葡萄酒的最终酒精浓度。

3)、确定成熟期:根据Vintage曲线图可知,一般在入窖第6年后,酒精浓度稳定不变,可以确定成熟期是6年,我们最早在第6年就可以开桶品尝。

4)、分析影响因素:根据Vintage曲线图,我们可以分析某个年份的葡萄所受到的环境影响因素,从而改善生产工艺。比如,由于某一年的光照不充分,糖分积累少,酒精浓度可能最终就比较低。我们就可以人工增加光照强度。

Vintage曲线应用案例扩展—信贷领域

       在金融风控领域中,通常需要观察用户的全周期风险情况,明确用户风险的成熟期,Vintage曲线正好可以实现这一点。

       现在,Vintage Analysis一般都被翻译为账龄分析,因为在信贷领域,Vintage是资产质量分析的重要工具,因为Vintage损失率是静态的,所以可以方便分析同一产品不同时间放款的质量变化。

       不同产品往往有着不同的Vintage形状,背后是迁徙率的不同,而迁徙率背后可能是逾期情况或者回收情况的不同,需要拆解分析。

       实际上,不同产品或不同机构的Vintage是无法直接进行比较,比较的前提是必须知道两个必要的条件:产品期数和产品还款方式,然后将Vintage损失率转为年化损失率再进行比较。特别要注意的是:在不知期数和还款方式的情况下,无法准确比较不同产品的Vintage。

参考文章

Vintage损失率转为年化损失率(名义利率/内部收益率/年化利率等概念),Vintage损失率转为年化损失率(名义利率/内部收益率/年化利率等概念)

金融风控中的Vintage和滚动率介绍

金融风控中的Vintage和滚动率介绍 - 知乎

(1)、葡萄酒VS信贷→Vintage曲线的意义

       在信贷领域中,我们也可以用Vintage曲线分析资产(portfolio)质量的成熟过程变化规律。为更容易理解,在此列举了Vintage分析过程中两个领域的对应关系。

行业

葡萄酒

信贷

备注

批次

入窖年份

房贷月份

批次标签

品质

酒精浓度

逾期风险

纵坐标

时间

入窖年龄

账龄MOB

横坐标

成熟期

品质成熟期

账户成熟期

Vintage曲线特征

影响因素

气温、日照、降水等

风控策略、客群、市场环境等

原因分析

       Vintage数据表格通常由三部分组成,其中横纵坐标通常是在账月份(MOB)和入账月份,内容可以为各种统计量,其中逾期率、逾期金额是比较常见的(图1统计的就是M1+的逾期率),但也能用其他比例、比率、数值和数量,比如总金额、平均待还余额等。Vintage分析有三个维度

1)、横着看,表明用户生命周期效应,体现了用户成熟过程中发生的变化,体现了不同账龄用户的违约率变化。

2)、纵着看,表明了新账户效应,体现了拥有相同账龄用户随着时间改变而发生的变化,体现了不同月份的违约率变化。

3)、对角线斜着看,表明了组合效应,体现了相同时期拥有不同账龄用户的组合变化。

        遵循同样的分析思路,按账龄(MOB)长短对齐后比较,我们可以了解同一产品不同时期放款的资产质量

1)、分析变化规律:资产质量(例如逾期率指标)的变化情况,如果前几期逾期率上升很快,那么说明短期风险没有捕捉住,欺诈风险较高;反之,如果曲线一直在上升,说明信用风险识别能力不佳。

从MOB9开始,大部分月份的逾期率趋于稳定,这说明9个月的表现期,用户的风险基本都暴露完全了,这对我们建模过程中确定样本表现期具有指导作用。

2)确定资产质量:一般以逾期率来定义资产质量,也就是曲线平缓后对应的逾期率。

3)、确定账户成熟期:用来判断客户展现好坏的时间因素,从而帮助定义表现期。

4)、分析影响因素:风控策略收紧或放松、客群变化、市场环境、政策法规等都会影响资产质量。分析影响因素,可以用来指导风控策略的调整。

(2)、信贷领域待确定的指标——账户表现期—信贷产品Vintage曲线挖掘

       在金融风控领域中,尤其是在风控建模的时候,通常需要观察用户的全周期风险情况,明确用户风险的成熟期,Vintage曲线正好可以实现这一点。

  • 1)、对于风控建模来说,经常需要确定Target,对于欺诈来说,我们可以简单的用首逾指标来定义为Target。但是对于PD模型来说,通常需要通过分析来确定表现期。如果表现期定义的不合适,那么一个好用户可能被定义成Bad,一个坏用户也可能被定义成Good。我们通常通过Vintage曲线来确定逾期率何时趋向于稳定,从而选择合适的表现期
  • 2)、Vintage分析可以反映不同账龄周期客户的风险情况,通过观察不同周期风险情况的变化,我们可以分析不同周期的客户风险变化(例如宏观形势的变化会导致客户风险发生波动)、风控策略变化(例如更新了风控模型或者策略调整导致的风险下降等)。另外,通过走完全部生命周期的客户,可以看到用户的整体逾期情况,从而用来调整风控策略

       进一步思考,如果以逾期率来定义资产质量,那么逾期风险(目标变量Y)是如何定义的?如何确定?M3,还是M6? 这个指标,需要结合滚动率来决定。

       首先,我们来分析为什么要确定账户的表现期?众所周知,表现期越长,信用风险暴露将越彻底,但意味着观察期离当前越远,用以提取样本特征的历史数据将越陈旧,建模样本和未来样本的差异也越大;反之,表现期越短,风险还未暴露完全,但好处是能用到更近的样本。

       例如,对于一个12期分期还款的信贷产品,理论上当用户在12期结束,并还清所有的钱后,我们才能定义为绝对的好客户;反之,我们只能说到目前为止是一个好客户,但并不能知道未来几期用户会不会逾期不还钱。因此,我们需要确定一个合适的表现期能覆盖足够多的坏客户即可。

       根据图中所示的信贷产品Vintage曲线,我们可以得到哪些信息呢?

1)、账龄最长为12个月,代表产品期限为12期。随着12期结束,账户的生命周期走到尽头。

2)、账龄MOB1、MOB2、MOB3的逾期率都为0,说明逾期指标为M4+(逾期超过90天)风险。

3)、由放贷月份从2018年1月~12月的账户的最终逾期率都在降低,说明资产质量在不断提升,可能是因为风控水平在不断提升。

4)、2018年5月相对于2018年1~4月的逾期率大幅度下降,说明该阶段风控策略提升明显。

5)、不同月份放款的M4+在经过9个MOB后开始趋于稳定,说明账户成熟期是9个月。

(3)、Vintage曲线绘制逻辑

       绘制Vintage曲线时,就不得不提到纵坐标中逾期率的定义。通常有两种计算口径:

T1、订单口径:逾期率 = 逾期订单数 / 总放贷订单数

T2、金额口径:逾期率 = 逾期剩余本金 / 总放贷本金

       目前互联网金融各家机构的口径定义存在差异,因此仅仅根据各家发布的Vintage曲线,有时并不能客观分析资产质量和风控水平。

推荐文章

Vintage分析表计算过程详解,Vintage分析表计算过程详解 - 知乎

AI智能风控(三)——实际风控产品中的挑战,https://zhuanlan.zhihu.com/p/158588024


相关文章
|
机器学习/深度学习 数据采集 测试技术
Toad:基于 Python 的标准化评分卡模型(上)
在信贷的风控模型中最常用、最经典的可能要属评分卡了,所谓评分卡就是给信贷客户进行打分,按照不同业务场景可为贷前、贷中、贷后和反欺诈,一般叫做ABCF卡。模型得到分数,通过设置cutoff阈值给出评估结果,结果可直接用于通过或拒绝,或者用于策略应用。
2761 0
Toad:基于 Python 的标准化评分卡模型(上)
|
机器学习/深度学习 存储
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
3874 0
卡方分箱、KS分箱、最优IV分箱、树结构分箱、自定义分箱
|
BI
运营必备 - CPA、CPS、CPC、CPM推广是什么意思?(一)
运营必备 - CPA、CPS、CPC、CPM推广是什么意思?(一)
24040 0
运营必备 - CPA、CPS、CPC、CPM推广是什么意思?(一)
|
10月前
|
存储 运维 监控
OpenFeature 实战:统一特征开关在风控模型的落地与灰度发布方案
在金融风控场景中,模型迭代速度与线上稳定性之间的平衡是一大挑战。传统硬编码方式存在耦合度高、控制粒度粗、缺乏审计等问题,导致误拦截损失显著。本文介绍了基于 OpenFeature 的解决方案,通过动态配置、细粒度控制和多语言支持实现高效特征管理,并结合灰度发布、熔断机制和安全审计提升系统稳定性与发布安全性。实战数据显示,该方案显著缩短上线周期、降低故障率并提升模型覆盖率,具备高可用性和可扩展性,适用于复杂风控环境下的策略迭代需求。
596 8
|
JavaScript 前端开发 数据可视化
Jupyter Notebook如何调试?JupyterLab作为DeBug调试工具及调试教程
文章提供了JupyterLab debugger工具的安装和使用教程,包括如何在没有conda环境或已有conda环境下安装所需的软件包,如jupyterlab、Node.js、ptvsd和jupyterlab的debugger插件,以及如何使用debugger进行程序调试。同时,文章还列出了一些常见的安装问题及其解决办法。
4509 1
|
编解码 网络协议 安全
什么是猫池
猫池(外文名:ModemPOOL)就是将相当数量的Modem使用特殊的拨号请求接入设备连接在一起,可以同时接受多个用户拨号连接的设备。无线猫池设备广泛应用于大量具有多用户远程联网需求的单位或需要向从多用户提供电话拨号联网服务的单位。如邮电局、税务局、海关、银行、证券商、各类交易所、期货经纪公司、工商局、各类信息呼叫中心等。我公司的提供的猫池主要用于IP电话通讯使用,不是市面上的养卡猫池,这里我们再对猫池详细说明及功能使用:
6107 0
|
前端开发 JavaScript 安全
Android MVI 架构:从双向绑定到单向数据流
现在从事Android开发多少都要懂点架构知识,从MVC、MVP再到MVVM,想必大家对于其各自的优缺点早已如数家珍。今天介绍的MVI与MVVM非常接近,可以针对性地弥补MVVM中的一些缺陷
3093 0
|
数据挖掘 数据处理 Python
Pandas中groupby后的数据排序技巧
Pandas中groupby后的数据排序技巧
1100 0
|
SQL 数据库 开发者
SQL中的子查询:嵌套查询的深度解析
【8月更文挑战第31天】
2134 0
|
关系型数据库 MySQL 数据挖掘
MySQL窗口函数详解(概念+练习+实战)
MySQL窗口函数详解(概念+练习+实战)
3034 2

热门文章

最新文章

下一篇
开通oss服务