陈磊-大数据风控:拍拍信的AI视角

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:
 普惠金融的发展遇到移动化的浪潮,使得消费信贷迎来了高速攀升期,同时也给风控带来了巨大的挑战,即在额度区间广、借贷频次高、客群下沉情况下,如    何实现风险可控、差异化定价、快速审批。幸而大数据和AI技术使得这一切变为可能,拍拍信一直在做这方面的探索,旨在整合数据资源、充分发掘数据潜在  价值,帮助金融机构伙伴搭建和优化风控系统,本次陈磊将分享相关的实践经验和落地案例。

当前消费金融规模持续增长,风险控制的挑战也与日俱增。

陈磊老师现场分享

请参见一个风控系统的雏形框架,涵盖了用户贷前和贷后的流程。

信息是为决策提供主要支撑。在信贷业务中,信息四要素是姓名、身份证、手机号、银行卡号。

比如在信息采集上,我们会用AI的技术来提取相关信息,比如OCR,用拍照的方式来提供身份证、银行卡号的信息。这样做的优点显而易见——提高用户体验,效率快,避免伪造的情况。

整个闭环模式中,我们会根据不同的客户发起不同的策略,对于优质客户会提高额度,同时我们也会避免不良资产导致坏账而采取措施。

风险流程就是一个数据的流程,包含数据的采集,消化、回收、落地。

离开数据,风控就是无水之源。

传统的风控数据就是征信类的数据,很显然,这是远远不够的。那么新型时代的发展也让我们有新的思考,有哪些数据可以为我们的风控作补充。

理想化的数据就是覆盖率高,又和风险高度相关的。

这里我们借用金字塔模式来介绍的可用数据:


我们在数据大爆炸的年代,什么样的数据都可以使用。

但是怎么使用,确实一个挑战。

这些挑战来源于以下几个维度:

在传统银行的风控体系中,无论是采用机器学习,还是人工标记,都需要专家来看怎么去做,如何做才能发挥作用。

鉴于特征提取都是以人为主,这就难免会有局限性,很多高维度、宽广度的数据衍生出来新的特征就很难用经验进行捕捉。 

下图是google在使用的一个专家+机器的特征工程模型框架:

  • 左边是比较明显的广度特征,专家可以凭经验直接提取

  • 中间广度加深度模型,一些不易解读的数据需要加工重构才能得以解读

  • 右面是需要深层挖掘、层层解析后才会出来的特征

下面是一份团案信息图谱的案例:

信息图谱在业务上的所反映的问题,在于最原始的出发点是什么, 什么形式关联,在关联上有什么途径。一层关联比较简单,怎样能够发现多层关联才更为关键。

从聚合数据的输出与查询,可以看出一步关联与二次关联的数据联系。

而更深层次的特征查询,能对关系网络形态位置,把非结构化的关系网络转化为一般模型可以能吸收并消化的特征向量,从而检测到异常客户。

以上讲了很多特征提取。下面是阐述如何落地,从图中模型可以看出,主要流程是对不同的数据源做不同的数据提取,抽象到几个风险因子,进而提炼出综合风险指数,化繁为简。


在风控体系中,我们追求准确性,同时也强调健壮性。

准确性是指特征的抽象与提取,那么健壮性就是指时间维度上的有效性、场景迁移的可扩展性。

原文发布时间为:2017-10-24

本文作者:陈磊

本文来自云栖社区合作伙伴“中生代技术”,了解相关信息可以关注“中生代技术”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1天前
|
存储 人工智能 编解码
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
42 9
|
1月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
93 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
1月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年12月】
大数据& AI 产品技术月刊【2024年12月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
74 7
|
2月前
|
存储 人工智能 数据管理
|
1月前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
2月前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
2月前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
2月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####

热门文章

最新文章