ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略

简介: ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略


目录

Vintage曲线简介—通过葡萄酒产业理解Vintage曲线

(1)、Vintage来源

(2)、Vintage曲线的意义

Vintage曲线应用案例扩展—信贷领域

(1)、葡萄酒VS信贷→Vintage曲线的意义

(2)、信贷领域待确定的指标——账户表现期—信贷产品Vintage曲线挖掘

(3)、Vintage曲线绘制逻辑


Vintage曲线简介—通过葡萄酒产业理解Vintage曲线

(1)、Vintage来源

       最初,Vintage原来的意思是,特定年份酿制的葡萄酒。由于每年采摘的葡萄会受到日照、气温、降水等因素的影响,最终酿造的葡萄酒品质会存在差异。在窖藏一定年份后,葡萄酒的品质将趋于稳定,也就是品质成熟,这段年份数被称为成熟期(maturity)。

       Vintage 分析原来用于评估不同年份的葡萄酒的品质,随着窖藏时间的推移而发生的变化。简便起见,我们以酒精浓度作为衡量葡萄酒品质的标准,约定:浓度越高,品质越好。首先,记录入窖年份作为该批次葡萄酒的标签,这也被称为Vintage或者Cohort。之后,我们将每年定期抽样测量酒精浓度,保存记录数据,如图所示。

       经过几年的数据积累,我们就可以绘制出酒精浓度随时间变化的Vintage曲线。俗话说,酒越酿越醇,Vintage曲线通常是单调递增的。

(2)、Vintage曲线的意义

       葡萄酒的Vintage曲线分析流程图如下所示:

Vintage曲线可以做什么呢?

1)、分析变化规律:评估不同年份的葡萄酒的品质随着窖藏时间推移的变化规律。比如,**年份的葡萄酒浓度在入窖第1年就能达到较高的水平,但上升缓慢;**年份的葡萄酒浓度,虽然起点低,但上升快。

2)、确定最终品质:Vintage曲线最终稳定值,表明了这批葡萄酒的最终酒精浓度。

3)、确定成熟期:根据Vintage曲线图可知,一般在入窖第6年后,酒精浓度稳定不变,可以确定成熟期是6年,我们最早在第6年就可以开桶品尝。

4)、分析影响因素:根据Vintage曲线图,我们可以分析某个年份的葡萄所受到的环境影响因素,从而改善生产工艺。比如,由于某一年的光照不充分,糖分积累少,酒精浓度可能最终就比较低。我们就可以人工增加光照强度。

Vintage曲线应用案例扩展—信贷领域

       在金融风控领域中,通常需要观察用户的全周期风险情况,明确用户风险的成熟期,Vintage曲线正好可以实现这一点。

       现在,Vintage Analysis一般都被翻译为账龄分析,因为在信贷领域,Vintage是资产质量分析的重要工具,因为Vintage损失率是静态的,所以可以方便分析同一产品不同时间放款的质量变化。

       不同产品往往有着不同的Vintage形状,背后是迁徙率的不同,而迁徙率背后可能是逾期情况或者回收情况的不同,需要拆解分析。

       实际上,不同产品或不同机构的Vintage是无法直接进行比较,比较的前提是必须知道两个必要的条件:产品期数和产品还款方式,然后将Vintage损失率转为年化损失率再进行比较。特别要注意的是:在不知期数和还款方式的情况下,无法准确比较不同产品的Vintage。

参考文章

Vintage损失率转为年化损失率(名义利率/内部收益率/年化利率等概念),Vintage损失率转为年化损失率(名义利率/内部收益率/年化利率等概念)

金融风控中的Vintage和滚动率介绍

金融风控中的Vintage和滚动率介绍 - 知乎

(1)、葡萄酒VS信贷→Vintage曲线的意义

       在信贷领域中,我们也可以用Vintage曲线分析资产(portfolio)质量的成熟过程变化规律。为更容易理解,在此列举了Vintage分析过程中两个领域的对应关系。

行业

葡萄酒

信贷

备注

批次

入窖年份

房贷月份

批次标签

品质

酒精浓度

逾期风险

纵坐标

时间

入窖年龄

账龄MOB

横坐标

成熟期

品质成熟期

账户成熟期

Vintage曲线特征

影响因素

气温、日照、降水等

风控策略、客群、市场环境等

原因分析

       Vintage数据表格通常由三部分组成,其中横纵坐标通常是在账月份(MOB)和入账月份,内容可以为各种统计量,其中逾期率、逾期金额是比较常见的(图1统计的就是M1+的逾期率),但也能用其他比例、比率、数值和数量,比如总金额、平均待还余额等。Vintage分析有三个维度

1)、横着看,表明用户生命周期效应,体现了用户成熟过程中发生的变化,体现了不同账龄用户的违约率变化。

2)、纵着看,表明了新账户效应,体现了拥有相同账龄用户随着时间改变而发生的变化,体现了不同月份的违约率变化。

3)、对角线斜着看,表明了组合效应,体现了相同时期拥有不同账龄用户的组合变化。

        遵循同样的分析思路,按账龄(MOB)长短对齐后比较,我们可以了解同一产品不同时期放款的资产质量

1)、分析变化规律:资产质量(例如逾期率指标)的变化情况,如果前几期逾期率上升很快,那么说明短期风险没有捕捉住,欺诈风险较高;反之,如果曲线一直在上升,说明信用风险识别能力不佳。

从MOB9开始,大部分月份的逾期率趋于稳定,这说明9个月的表现期,用户的风险基本都暴露完全了,这对我们建模过程中确定样本表现期具有指导作用。

2)确定资产质量:一般以逾期率来定义资产质量,也就是曲线平缓后对应的逾期率。

3)、确定账户成熟期:用来判断客户展现好坏的时间因素,从而帮助定义表现期。

4)、分析影响因素:风控策略收紧或放松、客群变化、市场环境、政策法规等都会影响资产质量。分析影响因素,可以用来指导风控策略的调整。

(2)、信贷领域待确定的指标——账户表现期—信贷产品Vintage曲线挖掘

       在金融风控领域中,尤其是在风控建模的时候,通常需要观察用户的全周期风险情况,明确用户风险的成熟期,Vintage曲线正好可以实现这一点。

  • 1)、对于风控建模来说,经常需要确定Target,对于欺诈来说,我们可以简单的用首逾指标来定义为Target。但是对于PD模型来说,通常需要通过分析来确定表现期。如果表现期定义的不合适,那么一个好用户可能被定义成Bad,一个坏用户也可能被定义成Good。我们通常通过Vintage曲线来确定逾期率何时趋向于稳定,从而选择合适的表现期
  • 2)、Vintage分析可以反映不同账龄周期客户的风险情况,通过观察不同周期风险情况的变化,我们可以分析不同周期的客户风险变化(例如宏观形势的变化会导致客户风险发生波动)、风控策略变化(例如更新了风控模型或者策略调整导致的风险下降等)。另外,通过走完全部生命周期的客户,可以看到用户的整体逾期情况,从而用来调整风控策略

       进一步思考,如果以逾期率来定义资产质量,那么逾期风险(目标变量Y)是如何定义的?如何确定?M3,还是M6? 这个指标,需要结合滚动率来决定。

       首先,我们来分析为什么要确定账户的表现期?众所周知,表现期越长,信用风险暴露将越彻底,但意味着观察期离当前越远,用以提取样本特征的历史数据将越陈旧,建模样本和未来样本的差异也越大;反之,表现期越短,风险还未暴露完全,但好处是能用到更近的样本。

       例如,对于一个12期分期还款的信贷产品,理论上当用户在12期结束,并还清所有的钱后,我们才能定义为绝对的好客户;反之,我们只能说到目前为止是一个好客户,但并不能知道未来几期用户会不会逾期不还钱。因此,我们需要确定一个合适的表现期能覆盖足够多的坏客户即可。

       根据图中所示的信贷产品Vintage曲线,我们可以得到哪些信息呢?

1)、账龄最长为12个月,代表产品期限为12期。随着12期结束,账户的生命周期走到尽头。

2)、账龄MOB1、MOB2、MOB3的逾期率都为0,说明逾期指标为M4+(逾期超过90天)风险。

3)、由放贷月份从2018年1月~12月的账户的最终逾期率都在降低,说明资产质量在不断提升,可能是因为风控水平在不断提升。

4)、2018年5月相对于2018年1~4月的逾期率大幅度下降,说明该阶段风控策略提升明显。

5)、不同月份放款的M4+在经过9个MOB后开始趋于稳定,说明账户成熟期是9个月。

(3)、Vintage曲线绘制逻辑

       绘制Vintage曲线时,就不得不提到纵坐标中逾期率的定义。通常有两种计算口径:

T1、订单口径:逾期率 = 逾期订单数 / 总放贷订单数

T2、金额口径:逾期率 = 逾期剩余本金 / 总放贷本金

       目前互联网金融各家机构的口径定义存在差异,因此仅仅根据各家发布的Vintage曲线,有时并不能客观分析资产质量和风控水平。

推荐文章

Vintage分析表计算过程详解,Vintage分析表计算过程详解 - 知乎

AI智能风控(三)——实际风控产品中的挑战,https://zhuanlan.zhihu.com/p/158588024


相关文章
|
6月前
|
数据挖掘
【SPSS】回归分析详细操作教程(附案例实战)(下)
【SPSS】回归分析详细操作教程(附案例实战)
752 0
ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略
ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略
ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略
|
29天前
|
人工智能 自然语言处理 语音技术
简介阿里云大模型的基本概况和产品矩阵
阿里云在大模型领域深入研究,推出了通义千问、通义万相、通义听悟等产品,涵盖自然语言处理、图像生成、语音识别等多个方面,同时提供行业专属模型和MaaS平台,致力于为企业和个人用户提供高效、智能的服务。
|
6月前
|
数据挖掘
【SPSS】回归分析详细操作教程(附案例实战)(上)
【SPSS】回归分析详细操作教程(附案例实战)
4882 0
|
6月前
|
前端开发 数据挖掘
【SPSS】频数分析和基本描述统计量详细操作教程(附实战案例)
【SPSS】频数分析和基本描述统计量详细操作教程(附实战案例)
2130 0
|
机器学习/深度学习 搜索推荐 算法
16 机器学习 - CF协同过滤算法补充
16 机器学习 - CF协同过滤算法补充
48 0
|
机器学习/深度学习 算法 数据处理
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
|
存储 数据采集 机器学习/深度学习
Prophet模型的简介以及案例分析(下)
Prophet模型的简介以及案例分析(下)
|
机器学习/深度学习 数据采集 算法
Prophet模型的简介以及案例分析(上)
Prophet模型的简介以及案例分析
|
机器学习/深度学习 编解码 算法
异构图 Link 预测 理论与DGL 源码实战
异构图 Link 预测 理论与DGL 源码实战
异构图 Link 预测 理论与DGL 源码实战