大数据风控指标----查准率与查全率

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据风控指标介绍2016-03-24 大林1查准率与查全率先说个例子,申请人有400个,其中有160个是好人,240个是坏人。我们用一个模型A,挑出了100个好人,其中真正的好人是80个,剩下20个是漏网之鱼。

大数据风控指标介绍

2016-03-24  大林

1查准率与查全率


先说个例子,申请人有400个,其中有160个是好人,240个是坏人。我们用一个模型A,挑出了100个好人,其中真正的好人是80个,剩下20个是漏网之鱼。

我们定义一个“查准率”(precision),为挑出来的好人中,真正是好人的比例。即: 


同时,我们定义一个“查全率”(recall),为查出来的好人占总的好人的比例。即:

“查准率”和“查全率”是一对矛盾的概念。通俗来讲,要想“查准率”高,要把标准卡的严苛一些(模型的分数阈值取的高些,让绝大多数申请人都判断为坏人,只有极少数特别好的人判断为好人)。但同时,因为通过的人较少,占总的好人的比例必然降低。即,“查全率”会降低,更多的好人被误判为坏人了。

反过来,如果标准卡的松些,更多的好人被挑了出来,“查全率”提高了。但是,漏网之鱼也更多了,“查准率”自然会降低。


2查准率,查全率和通过率,坏账率的关系


“通过率”和“坏账率”是风险控制上的术语,而“查准率”和“查全率”是机器学习的专业数据。他们表达的意思是一致的,但具体的含义是不同的。

“坏账率”的意思是,判断为好人的群体中,真正的坏人所占的比例。即:

可见


即“坏账率”与“查准率”的和就是100%,两个指标只是从正反两个反面来考察同一个物理意义。

“通过率”为模型判断为好人的人数占总人数的比例,即


本例中,通过率为100/400=25%。

为什么业内很少用“查全率”,而用“通过率”这个概念呢?

这是因为,在真实的业务中,我们拒绝掉的那一部分申请中,有多少是好人,我们是不清楚的,所以“查全率”的概念,只能在模型训练的时候使用(训练的用例都是已知结果的)。而“通过率”则可以直接度量,简单易算。从物理意义上将,两者度量的目标是一致的。


3评价风控的指标是什么呢?


谈起一家金融公司的风控能力,外行往往只谈论“坏账率”这一个指标。这是不全面的。不过作为第三方,谁又关心它的“通过率”呢?尤其是以这样的资产理财的人,巴不得坏账率为零,自己遭受损失的风险是最小的。但从内控来讲,风控部门的人员,是希望“坏账率”降低的,这提现了他们的风控能力是很强的,并且他们的收入,往往也跟坏账是挂钩的。

但是,如果“坏账率”很小了,“通过率”也很小,金融公司均摊到单个成交客户上的运作成本就很高。在真实的业务中,获取客户和审核客户都是有很高的成本的。如果没有成交,这些成本都白费了。业务人员的绩效中,也往往以成交作为度量的,成交越多,每月领的薪水就越多。所以从业绩的考虑,业务人员是有动力希望“通过率”变高的。

另外,“通过率”还会影响用户的体验。如果申请的贷款被拒绝的比例很高,客户很可能费了很多功夫,却不能借到钱,怨气就会很大,用户体验变差。但如果“通过率”很高,往往意味着风控能力比较弱,骗子们就会扎堆来钻空子,造成“坏账率”的急剧增高。

所以,“通过率”和“坏账率”这一对矛盾的指标,是金融公司业务部门与风控部门斗争的直观体现。而最终的结果,往往是两者之间的平衡,即在一定的坏账率范围内,争取更高的“通过率”,在一定的“通过率”的情况下,让“坏账率”尽量更低。这个平衡,不仅对内部的管理非常重要,也对公司的金融产品设计和用户体验有重大的影响。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
186 1
|
1月前
|
消息中间件 监控 数据可视化
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle
47 2
|
9天前
|
机器学习/深度学习 数据采集 搜索推荐
大数据与金融风控:信用评估的新标准
【10月更文挑战第31天】在数字经济时代,大数据成为金融风控的重要资源,特别是在信用评估领域。本文探讨了大数据在金融风控中的应用,包括多维度数据收集、智能数据分析、动态信用评估和个性化风控策略,以及其优势与挑战,并展望了未来的发展趋势。
|
5月前
|
机器学习/深度学习 自然语言处理 监控
金融行业的大数据风控模型:构建安全高效的信用评估体系
金融机构借助大数据风控提升信贷效率,通过数据收集、清洗、特征工程、模型构建与评估来识别风险。关键技术涉及机器学习、深度学习、NLP和实时处理。以下是一个Python风控模型构建的简例,展示了从数据预处理到模型训练、评估的过程,并提及实时监控预警的重要性。该文旨在阐述大数据风控的核心要素和关键技术,并提供基础的代码实现概念。【6月更文挑战第23天】
812 8
|
6月前
|
物联网 大数据 BI
助力工业物联网,工业大数据之费用事实指标分析及实现【二十四】
助力工业物联网,工业大数据之费用事实指标分析及实现【二十四】
57 0
|
6月前
|
物联网 大数据 BI
助力工业物联网,工业大数据之客户回访事实指标需求分析【二十三】
助力工业物联网,工业大数据之客户回访事实指标需求分析【二十三】
70 0
|
6月前
|
物联网 大数据 BI
助力工业物联网,工业大数据之维修事实指标需求分析【二十二】
助力工业物联网,工业大数据之维修事实指标需求分析【二十二】
63 0
|
6月前
|
物联网 大数据
助力工业物联网,工业大数据之安装事实指标需求分析【二十一】
助力工业物联网,工业大数据之安装事实指标需求分析【二十一】
41 0
|
6月前
|
数据采集 物联网 大数据
助力工业物联网,工业大数据之工单事实指标需求分析【二十】
助力工业物联网,工业大数据之工单事实指标需求分析【二十】
60 0
|
6月前
|
物联网 大数据
助力工业物联网,工业大数据之油站事实指标需求分析【十九】
助力工业物联网,工业大数据之油站事实指标需求分析【十九】
58 0