金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:



机器学习、深度学习等对金融业务有何帮助?背后究竟又是怎样去变革提升当下金融体系的?在本月举办的复旦科技创新论坛上,CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述。

 

朱明杰表示,当下人工智能和金融的话题有些过热,我们应该冷静地看到,将AI技术移植到金融风控场景的道路其实面临着诸多磨合的困难,新业务的冷启动、大量非结构化数据加工以及前所未有的上千维度特征融合处理,包括线上的反欺诈识别,这都是横在AI与业务经验逐步结合前的鸿沟。


以下为CreditX氪信创始人朱明杰博士的演讲速记,在不影响原意的情况下,部分有删节: 


新金融业务的冷启动是什么?


冷启动的问题其实主要是指新金融领域缺少样本,我们知道金融机构积累坏账样本的周期是比较长的,另一方面每一个坏账也都是血淋淋的教训,坏样本积累非常珍贵。


 

AI在这方面的一个解决尝试是采用互联网搜索领域常用的半监督学习方法,通过少量专家人工标记构建训练数据集,快速构建初始机器学习模型来对信贷主体进行风险和信用评估,后期通过不断迭代优化模型以达到最优的效果。此外,在大型金融场景中也可以通过Domain Adaptation的技术,比如我们积累了在不同金融业务领域的经过大数据集训练好的深度学习网络,就可以作为相似领域相同问题但只有小量标记样本用于建模时的特征生成器。

 


 

新金融业务面临的海量数据有哪些?


在这一点上,由于新金融业务客群进一步下沉,传统征信数据缺失非常严重,因此为了做到更全面可靠的金融风控,机构往往需要在申请信息之上补充大量诸如消费、运营商、社交、互联网行为甚至影像等等,然而这些海量超高维,稀疏,低饱和,多重共线的数据,传统的风控特征工程往往束手无策。

 

如果金融机构有大量无标签的数据和少量有标签的数据,其实我们已经可以通过深度学习的非监督或有监督算法,学习稳健,泛化能力好且饱含信息的特征用于分类任务。这里重点谈一下非监督的算法,包括受限玻尔兹曼机,深度置信网络等,包括目前尝试的是最先进的一些生成式算法譬如生成式博弈网络,算法启发于博弈论,由生成网络和判别网络两个网络组成,生成网络生成数据目的是欺骗判别网络,判别网络为判别数据的真假而得到奖赏或者惩罚。随着两个网络的不断博弈,生成网络可以学到很好的特征从而生成足以以假乱真的数据。

 


新金融风控正面临维度灾难


我们知道国内外目前成熟的风控系统很多都是评分卡体系,但基于之前的海量外部数据,其衍生的特征量很多时候都是上千上万维度的,远远超出了评分卡体系所能处理的能力范围,也就形成了维度灾难。那么对这些千维万维的特征该怎么很好地应用到新金融风控呢?

 

事实上,不同的数据类型,它的最优模型选择也是不同的,基于这种思想,我们去针对机器学习特征和专家人工特征构建最优的规则模型、机器学习模型、深度学习模型来吸收这些全量特征,就可以很好地化解这一问题。此外,在此之上我们进一步通过模型集成技术进行风险评分的输出,目前已经在与领先机构的风控场景中取得出人意料的效果提升。辟如在实际大型的消费金融场景中,这种集成模型无论在在稳定性或泛化能力上的表现都优于其他已知方法,最大ks值上也比传统逻辑回归提升近70%,从0.19能够达到0.32甚至更高。

 


 

新金融业务频频被瞬息万变的互联网群体欺诈攻击


最后,谈一下金融反欺诈。之前关心互联网金融的朋友应该都知道,现在网上薅羊毛的现象很严重,尤其是新上线的互联网金融业务,常常是第一个月就被网上羊毛党群体轮番攻击,这其实也就是线上反欺诈的问题,由于这些羊毛党都有专业的申请信息填写、个人数据伪造的经验,传统基于规则的风控很多时候根本无法识别。

 

基于大规模图学习的反欺诈网络很好地解决了这一问题,一方面我们能通过复杂网络来识别群体欺诈风险,另一方面我们也可以把基于图的半监督算法应用于预测“好”/ “坏”人的分类模型,即在有少量标签节点的图结构中,根据传播算法,预测无标记节点的标签类别。

 


 

举个简单例子,在申请网络中其实每一个申请人、手机号、设备、IP地址都可以是一张图中的结点,而诸如申请人拥有设备、手机号呼叫手机号等有向联系都可以是图中的边,边的权重为关联的紧密程度。在我们构建的图中,那些有违约与否标记的申请人是原始种子结点,通过使用基于图的半监督算法,把是否违约的标记传播给无标签的申请人,这样我们就可以在少量有标签的样本上构建出极为庞大的风险网络,并打造形成我们的违约预测模型。以下是在实际场景更为复杂的网络中,基于图结构的局部风险特征、欺诈Pattern的展示,尤其是基于图挖掘算法提取的全局风险特征,目前通过FraudPageRank、community detection、SocialAffinity等风险指标已经可以实现网络全局风险的实时识别。

 


 

时下,新金融正来到转型升级的十字路口,一方面AI被寄予极大厚望,另一方面将互联网级别的AI应用于金融领域也存在很多急需突破的挑战。相信随着需求驱动技术的快速发展,机器学习将在金融风控的工业级应用中发挥越来越大的价值,但如何真正释放数据的价值,我想我们的征途才刚刚开始。


CreditX氪信是一家机器学习风控解决方案服务商,CEO朱明杰为微软亚洲研究院博士、德国马克思普朗克研究所博士后,携程大数据部门负责人。曾在MSRA、Yahoo Labs及eBaySearch Science担任重要职位,拥有丰富的数据挖掘、互联网搜索和机器学习的研究开发和产品工作经验。 

原文发布时间为:2016-12-28


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
67 10
|
3天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
10天前
|
机器学习/深度学习 人工智能 算法
探索AI在医疗诊断中的应用与挑战
【10月更文挑战第21天】 本文深入探讨了人工智能(AI)技术在医疗诊断领域的应用现状与面临的挑战,旨在为读者提供一个全面的视角,了解AI如何改变传统医疗模式,以及这一变革过程中所伴随的技术、伦理和法律问题。通过分析AI技术的优势和局限性,本文旨在促进对AI在医疗领域应用的更深层次理解和讨论。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在自然语言处理中的突破:从理论到应用
AI在自然语言处理中的突破:从理论到应用
53 17
|
5天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
6天前
|
人工智能 Serverless API
尽享红利,Serverless构建企业AI应用方案与实践
本次课程由阿里云云原生架构师计缘分享,主题为“尽享红利,Serverless构建企业AI应用方案与实践”。课程分为四个部分:1) Serverless技术价值,介绍其发展趋势及优势;2) Serverless函数计算与AI的结合,探讨两者融合的应用场景;3) Serverless函数计算AIGC应用方案,展示具体的技术实现和客户案例;4) 业务初期如何降低使用门槛,提供新用户权益和免费资源。通过这些内容,帮助企业和开发者快速构建高效、低成本的AI应用。
45 12
|
3天前
|
人工智能 容灾 关系型数据库
【AI应用启航workshop】构建高可用数据库、拥抱AI智能问数
12月25日(周三)14:00-16:30参与线上闭门会,阿里云诚邀您一同开启AI应用实践之旅!
|
2天前
|
人工智能 前端开发 Java
Spring AI Alibaba + 通义千问,开发AI应用如此简单!!!
本文介绍了如何使用Spring AI Alibaba开发一个简单的AI对话应用。通过引入`spring-ai-alibaba-starter`依赖和配置API密钥,结合Spring Boot项目,只需几行代码即可实现与AI模型的交互。具体步骤包括创建Spring Boot项目、编写Controller处理对话请求以及前端页面展示对话内容。此外,文章还介绍了如何通过添加对话记忆功能,使AI能够理解上下文并进行连贯对话。最后,总结了Spring AI为Java开发者带来的便利,简化了AI应用的开发流程。
85 0
|
10天前
|
传感器 机器学习/深度学习 人工智能
AI在自动驾驶汽车中的应用与未来展望
AI在自动驾驶汽车中的应用与未来展望
59 9