金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:



机器学习、深度学习等对金融业务有何帮助?背后究竟又是怎样去变革提升当下金融体系的?在本月举办的复旦科技创新论坛上,CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述。

 

朱明杰表示,当下人工智能和金融的话题有些过热,我们应该冷静地看到,将AI技术移植到金融风控场景的道路其实面临着诸多磨合的困难,新业务的冷启动、大量非结构化数据加工以及前所未有的上千维度特征融合处理,包括线上的反欺诈识别,这都是横在AI与业务经验逐步结合前的鸿沟。


以下为CreditX氪信创始人朱明杰博士的演讲速记,在不影响原意的情况下,部分有删节: 


新金融业务的冷启动是什么?


冷启动的问题其实主要是指新金融领域缺少样本,我们知道金融机构积累坏账样本的周期是比较长的,另一方面每一个坏账也都是血淋淋的教训,坏样本积累非常珍贵。


 

AI在这方面的一个解决尝试是采用互联网搜索领域常用的半监督学习方法,通过少量专家人工标记构建训练数据集,快速构建初始机器学习模型来对信贷主体进行风险和信用评估,后期通过不断迭代优化模型以达到最优的效果。此外,在大型金融场景中也可以通过Domain Adaptation的技术,比如我们积累了在不同金融业务领域的经过大数据集训练好的深度学习网络,就可以作为相似领域相同问题但只有小量标记样本用于建模时的特征生成器。

 


 

新金融业务面临的海量数据有哪些?


在这一点上,由于新金融业务客群进一步下沉,传统征信数据缺失非常严重,因此为了做到更全面可靠的金融风控,机构往往需要在申请信息之上补充大量诸如消费、运营商、社交、互联网行为甚至影像等等,然而这些海量超高维,稀疏,低饱和,多重共线的数据,传统的风控特征工程往往束手无策。

 

如果金融机构有大量无标签的数据和少量有标签的数据,其实我们已经可以通过深度学习的非监督或有监督算法,学习稳健,泛化能力好且饱含信息的特征用于分类任务。这里重点谈一下非监督的算法,包括受限玻尔兹曼机,深度置信网络等,包括目前尝试的是最先进的一些生成式算法譬如生成式博弈网络,算法启发于博弈论,由生成网络和判别网络两个网络组成,生成网络生成数据目的是欺骗判别网络,判别网络为判别数据的真假而得到奖赏或者惩罚。随着两个网络的不断博弈,生成网络可以学到很好的特征从而生成足以以假乱真的数据。

 


新金融风控正面临维度灾难


我们知道国内外目前成熟的风控系统很多都是评分卡体系,但基于之前的海量外部数据,其衍生的特征量很多时候都是上千上万维度的,远远超出了评分卡体系所能处理的能力范围,也就形成了维度灾难。那么对这些千维万维的特征该怎么很好地应用到新金融风控呢?

 

事实上,不同的数据类型,它的最优模型选择也是不同的,基于这种思想,我们去针对机器学习特征和专家人工特征构建最优的规则模型、机器学习模型、深度学习模型来吸收这些全量特征,就可以很好地化解这一问题。此外,在此之上我们进一步通过模型集成技术进行风险评分的输出,目前已经在与领先机构的风控场景中取得出人意料的效果提升。辟如在实际大型的消费金融场景中,这种集成模型无论在在稳定性或泛化能力上的表现都优于其他已知方法,最大ks值上也比传统逻辑回归提升近70%,从0.19能够达到0.32甚至更高。

 


 

新金融业务频频被瞬息万变的互联网群体欺诈攻击


最后,谈一下金融反欺诈。之前关心互联网金融的朋友应该都知道,现在网上薅羊毛的现象很严重,尤其是新上线的互联网金融业务,常常是第一个月就被网上羊毛党群体轮番攻击,这其实也就是线上反欺诈的问题,由于这些羊毛党都有专业的申请信息填写、个人数据伪造的经验,传统基于规则的风控很多时候根本无法识别。

 

基于大规模图学习的反欺诈网络很好地解决了这一问题,一方面我们能通过复杂网络来识别群体欺诈风险,另一方面我们也可以把基于图的半监督算法应用于预测“好”/ “坏”人的分类模型,即在有少量标签节点的图结构中,根据传播算法,预测无标记节点的标签类别。

 


 

举个简单例子,在申请网络中其实每一个申请人、手机号、设备、IP地址都可以是一张图中的结点,而诸如申请人拥有设备、手机号呼叫手机号等有向联系都可以是图中的边,边的权重为关联的紧密程度。在我们构建的图中,那些有违约与否标记的申请人是原始种子结点,通过使用基于图的半监督算法,把是否违约的标记传播给无标签的申请人,这样我们就可以在少量有标签的样本上构建出极为庞大的风险网络,并打造形成我们的违约预测模型。以下是在实际场景更为复杂的网络中,基于图结构的局部风险特征、欺诈Pattern的展示,尤其是基于图挖掘算法提取的全局风险特征,目前通过FraudPageRank、community detection、SocialAffinity等风险指标已经可以实现网络全局风险的实时识别。

 


 

时下,新金融正来到转型升级的十字路口,一方面AI被寄予极大厚望,另一方面将互联网级别的AI应用于金融领域也存在很多急需突破的挑战。相信随着需求驱动技术的快速发展,机器学习将在金融风控的工业级应用中发挥越来越大的价值,但如何真正释放数据的价值,我想我们的征途才刚刚开始。


CreditX氪信是一家机器学习风控解决方案服务商,CEO朱明杰为微软亚洲研究院博士、德国马克思普朗克研究所博士后,携程大数据部门负责人。曾在MSRA、Yahoo Labs及eBaySearch Science担任重要职位,拥有丰富的数据挖掘、互联网搜索和机器学习的研究开发和产品工作经验。 

原文发布时间为:2016-12-28


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
413 29
|
1月前
|
设计模式 人工智能 自然语言处理
3个月圈粉百万,这个AI应用在海外火了
不知道大家还记不记得,我之前推荐过一个叫 Agnes 的 AI 应用,也是当时在 WAIC 了解到的。
325 1
|
1月前
|
消息中间件 人工智能 安全
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,涵盖AgentScope-Java、AI MQ、Higress、Nacos及可观测体系,全面开源核心技术,助力企业构建分布式多Agent架构,推动AI原生应用规模化落地。
234 0
构建企业级 AI 应用:为什么我们需要 AI 中间件?
|
1月前
|
人工智能 算法 Java
Java与AI驱动区块链:构建智能合约与去中心化AI应用
区块链技术和人工智能的融合正在开创去中心化智能应用的新纪元。本文深入探讨如何使用Java构建AI驱动的区块链应用,涵盖智能合约开发、去中心化AI模型训练与推理、数据隐私保护以及通证经济激励等核心主题。我们将完整展示从区块链基础集成、智能合约编写、AI模型上链到去中心化应用(DApp)开发的全流程,为构建下一代可信、透明的智能去中心化系统提供完整技术方案。
241 3
|
1月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
1月前
|
人工智能 缓存 运维
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
本文介绍联调造数场景下的AI应用演进:从单Agent模式到多Agent协同的架构升级。针对复杂指令执行不准、响应慢等问题,通过意图识别、工具引擎、推理执行等多Agent分工协作,结合工程化手段提升准确性与效率,并分享了关键设计思路与实践心得。
412 20
【智造】AI应用实战:6个agent搞定复杂指令和工具膨胀
|
1月前
|
人工智能 安全 Serverless
再看 AI 网关:助力 AI 应用创新的关键基础设施
AI 网关作为云产品推出已有半年的时间,这半年的时间里,AI 网关从内核到外在都进行了大量的进化,本文将从 AI 网关的诞生、AI 网关的产品能力、AI 网关的开放生态,以及新推出的 Serverless 版,对其进行一个全面的介绍,期望对正在进行 AI 应用落地的朋友,在 AI 基础设施选型方面提供一些参考。
578 48
|
1月前
|
人工智能 安全 中间件
构建企业级 AI 应用:为什么我们需要 AI 中间件?
阿里云发布AI中间件,推出AgentScope-Java、AI MQ、Higress网关、Nacos注册中心及可观测体系,全面开源核心技术,构建分布式多Agent架构基座,助力企业级AI应用规模化落地,推动AI原生应用进入新范式。
446 26
|
1月前
|
人工智能 安全 数据可视化
Dify让你拖拽式搭建企业级AI应用
Dify是开源大模型应用开发平台,融合BaaS与LLMOps理念,通过可视化工作流、低代码编排和企业级监控,支持多模型接入与RAG知识库,助力企业快速构建安全可控的AI应用,实现从原型到生产的高效落地。
Dify让你拖拽式搭建企业级AI应用
|
1月前
|
自然语言处理 数据挖掘 关系型数据库
ADB AI指标分析在广告营销场景的方案及应用
ADB Analytic Agent助力广告营销智能化,融合异动与归因分析,支持自然语言输入、多源数据对接及场景模板化,实现从数据获取到洞察报告的自动化生成,提升分析效率与精度,推动数据驱动决策。