氪信CEO朱明杰:AI如何应对金融另类大数据业务挑战?

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: AI应对另类大数据业务挑战

近日,在上海交通大学上海高级金融学院主办的2019国际金融科技会议上,氪信科技创始人兼CEO朱明杰博士结合企业自身一系列实践经验,从技术角度对AI金融痛点和难点进行了系统性梳理。

他表示,强金融数据以外的“另类数据”已经远远超出评分卡的处理范围,主要包括动态时序类、文本类、网络类三种,“总的思路是在金融场景下,将专家的经验变成机器能够理解的数据,不断训练机器,提高机器的学习能力,最后让机器处理人力无法解决的问题。”

以下为演讲全文,雷锋网(公众号:雷锋网)AI金融评论进行了不改变原意的精编。

今天大家讲金融大数据,主要都在说强金融数据之外的“另类数据”。我们这些做计算机工作的,能感受到风控专家最痛苦的地方,是他们希望按照以前定规则的方式,把这些数据编码到以往的评分体系里。比如以前你可以根据工资多少、纳税多少做评分卡,所以对那些金融概念之外的数据,比如一个人一天和多少人打电话,他的互联网行为、社交状况等,风控专家一开始也想根据传统经验把这些数据变成特征变量,结果发现它们远远超出了评分卡可处理的范围。

以前我们在互联网里面处理的就是这些数据,我们训练机器在一堆照片里识别谁是章子怡,不是告诉它谁长得美长得白就是章子怡,不是这样的。但是我们依然能做出识别率非常高的模型,这里面没有什么神奇的单项技术,它是一系列技术。同理,我们今天用AI技术去处理金融领域的另类数据,也不是围绕一个非常fancy的技术,不是首先要迁就人的理解范畴,我们是为了达到实际效果才出发的。

三种“另类数据”的处理方式

TB1BIC8dHus3KVjSZKbXXXqkFXa.png

氪信另类数据构建强风控体系工作总结图

一般来说,难以做成评分卡的另类数据主要包括动态时序类、文本类、网络类三种,这些让风控专家束手无策的数据问题,机器都能解决。总的思路是在金融场景下,将专家的经验变成机器能够理解的数据,不断训练机器,提高机器的学习能力,最后让机器处理人力无法解决的问题。

时序数据是基于时间的一系列数据,如果风控人员要用评分卡把这类数据归类成一个一个特征变量会极其痛苦,但是机器不同,它可以存储和处理大量的时序数据,是一种关注总体而非个别节点的方式。

TB1qruZdQ9E3KVjSZFGXXc19XXa.png

这是我们跟京东金融的一个合作成果,相关论文发表在2018年的KDD上,主要是处理发生在APP上面的序列化行为,比如个人注册了一个页面,输入了一些信息,点击的速度,从左边滑还是右边滑……这样一些数据,然后从中找出有欺诈嫌疑的一些人的特征,并提出了一套行为事件流时序模型框架。这套框架的提出基于一个很自然的想法:这些年大家多用深度学习,尤其是LSTM(基于深度循环网络的特征提取框架),它特别适合处理时序型数据。所以我们就把这类序列行为编码到我们的LSTM模型里去。

做到这一步还不够,我们还有一套框架是用CNN的模型对序列行为衍生特征。具体结果可以看我们在KDD 2018上面的paper。

TB1jXqYdNiH3KVjSZPfXXXBiVXa.png

文本类数据处理方式

在金融行业,以前大家可能对文本数据束手无策,因为你很难将一系列的对话文本转变成数字化变量,解释给计算机听,最后还能输出结果。我们能做到的是在一个限定的场景里面,给出一个很好的结果。因为你每对它多做一个限制,你的计算复杂度就会降低很多,在有限的计算资源和技术条件下,就能得到一个足够好的效果。

第一篇论文主要讲我们建了一套QA问答体系的特征,从一段文本最后变成数值化的向量,其实是有标准做法的。但是我们发现,在一个限定的场景里,比如说客服场景是一问一答的方式,单单用X-Encoder(基于无监督深度学习的特征提取框架)是不够高效的,于是我们做了一套针对QA的基于X-Encoder的催收风险模型交互式特征提取框架,专门适合金融领域的一问一答。

第二篇论文是关于提取客户标签的,通过对话把你的context提取成标准事件。这件事的关键点在于,今天金融机构的客服人员,都是被训练成机器一样在工作,一个新人招进来以后,就用标准化的培训模板去教导他,告诉他比如客户讲了这句话以后,你要讲哪些话,怎么给客户打标签等等。所以我们的工作是构建一个知识库,建立标准对话流程预测体系,让这个新人可以更快地上手。我

第三类网络数据,因为个人数据非常有限,尤其在金融领域,大数据风控其实需要大量的训练样本,但金融场景里面的训练样本是非常宝贵的,比如你想获得一个人是坏人的样本数据,那么至少得有一笔几万块的坏账,这个成本非常高。这跟我们以前做互联网预测分析不一样,用户喜不喜欢一部电影,一个广告,或者一个手机壳,这件事情的成本没那么高。

我们的做法是找到类似的人,从他的申请资料和社交关系上面去抽取知识,做聚类。当你发现了一个坏人,那么跟他类似的那群人是坏人的概率就非常高。也就是说,当你找到有效的群体之间相似这种关系以后,是有助于对个体风险做识别的。当然仅仅个人的大数据还不够,我们还需要借助更多的大数据,最后用集成模型把个人的风险特征和局部网络、全局网络上建立的风险特征结合在一起,提升风险预测效果。

模型的可解释性:AI下一个突破点

TB1QAu7dRCw3KVjSZFuXXcAOpXa.png

刚才讲的是几类不同类型的另类数据处理办法,这个过程中我们始终有个挑战,那就是你做的模型是一个黑盒,没有办法解释。我不能告诉金融机构,谁用了这种方法,效果很好,这对金融机构来讲是不能接受的,你一定要告诉他为什么。这其实也是整个AI领域最头痛的事情,在业务场景特别明显的地方,比如医疗领域,困难更加明显,比如AI诊断说要切掉一条腿,为什么?你不能说是model预测的,或者最后说model出错了,那这个医院肯定是会关门的。

所以模型的可解释性是深度学习突破之后AI面临的新挑战,在通用模型上目前我还没有看到特别好的解决办法。但是在具体的金融场景里,我们可以在某种程度上给出解释。有两个办法:一个是局部的近似,用低维模型拟合高维模型,它参考了博弈论里面的东西,最后得到最优的决策,是倒推博弈论的过程,这个我们有成型的产品,用在了我们的风险解决方案里面;第二个是把AI模型里最重要的几个特征变量找出来,解释给业务专家听。

TB10B17dG5s3KVjSZFNXXcD3FXa.png

左边第一个是带有时间先后序列特征的实践结果。指标主要就是模型区分度,KS值和AUC。按照KNN的通常做法KS值是0.142,再用一个神经网络去做MLP,KS值达到0,167。加上这些特征以后,进一步提升到0.203,在一个典型的场景上,加上行为数据,KS值可以做到0.216,差不多提升了50%以上。

第二个是短文本信息提取模型效果,传统做法和利用AI模型的做法在数值表现上效果差不多,但是后者的扩展性更强,因为原来要求人非常有经验,时时想着应对策略,有了这个框架以后就不用人费力去调参了,机器会替代部分人力工作。

第三个是对社交网络数据的使用效果,如果只是单纯用个人的风险数据,KS值是0.3;加上基于图的特征以后,有类似于人群的特征,很明显提升到0.38。

右边是加入上述三种类型数据以后的综合表现,我们也可以看到KS值是不断增长的。

从个体数据处理经验迁移到群体

TB1p1u6dRKw3KVjSZTEXXcuRpXa.png

群体风险方面,这两年监管对反洗钱和可疑交易监测要求很严格,以前国内监测个人的欺诈风险,主要是基于规则和个人上报,风险运营部门会用很多人工去找,效率很低,现在欺诈的手段层出不穷,就需要用人的规则和以前发生过的欺诈事件训练机器去抓。原来为了抓可疑交易,假设要雇一百个人人工去看,现在是一百个风险运营的人等着看机器提供的样本是不是对的,再反馈给机器,让机器训练得更加准确。

这里的关键是使用图算法。在互联网行业专门有做图算法、图解决方案的公司,提出解决方案来,发现一直没有成功的。总结起来是两个点,一定要根据行业知识来做降维;还需要一套有效的计算体系。我们的列式计算引擎能够在15分钟内处理百亿级别数据,这在以前是很难想象的。

 

TB1IkWWdL1H3KVjSZFBXXbSMXXa.png

最下面是原始资金的交易流水。我们知道银行的交易流水量非常大,不大得话,人工就可以解决了。交易流水形成两个东西:

首先互相帐户往来会建立起一个大的Graph,我们会给定以前的可疑种子结点,经过局部社区算法找到跟它关联的可疑子社区。

比如说放进去10万个可疑种子,找到10万个跟它相关的社区。这10万个社区里一共是上亿的帐户。其中90%以上的都是好人,我们就对其余10%的人群进行重点布控。

 

TB18FqYdNiH3KVjSZPfXXXBiVXa.png

另外,我们基于风险专家的经验形成风险知识图谱,这是一般风险专家会去考虑一个交易往来的特征,从金额、模式、速度、场景方面考虑。

结合这两个东西来做图的深度学习预测模型。有了这个模型指导以后,由单个种子去触发。使用ACL优化的PPR算法,加上Sweep-cut算法,实现大规模的挖掘。最后做到一件事情:通过种子的节点去找密切的社区,学到图的结构,找到更可疑的人。

讲完原理,举个例子。比如一个大银行的房贷系统,发现几十个帐户,都和叫“X琴”的人有关系,和她的资金往来非常多, X琴可能是中介,或者专门职业给人提供首付、中间过桥的,这里面肯定不正常。如果纯靠人工去找的话,很难从几十亿交易流水数据中找到这样的东西,但是通过图挖掘可以一目了然看到X琴的帐户有问题。

雷锋网雷锋网雷锋网

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
18天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
13天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在金融领域的应用:智能投资顾问
【10月更文挑战第31天】随着AI技术的快速发展,智能投资顾问在金融领域的应用越来越广泛。本文介绍了智能投资顾问的定义、工作原理、优势及未来发展趋势,探讨了其在个人财富管理、养老金管理、机构风险管理及量化交易中的典型应用,并分析了面临的挑战与机遇。智能投资顾问以其高效、低成本、个性化和全天候服务的特点,正逐步改变传统投资管理方式。
|
14天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
25天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
77 10
|
20天前
|
机器学习/深度学习 数据采集 搜索推荐
大数据与金融风控:信用评估的新标准
【10月更文挑战第31天】在数字经济时代,大数据成为金融风控的重要资源,特别是在信用评估领域。本文探讨了大数据在金融风控中的应用,包括多维度数据收集、智能数据分析、动态信用评估和个性化风控策略,以及其优势与挑战,并展望了未来的发展趋势。
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
ly~
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据在智慧金融中的应用
在智能算法交易中,深度学习揭示价格波动的复杂动力学,强化学习依据市场反馈优化策略,助力投资者获取阿尔法收益。智能监管合规利用自然语言处理精准解读法规,实时追踪监管变化,确保机构紧跟政策。大数据分析监控交易,预警潜在违规行为,变被动防御为主动预防。数智化营销通过多维度数据分析,构建细致客户画像,提供个性化产品推荐。智慧客服借助 AI 技术提升服务质量,增强客户满意度。
ly~
112 2
|
1月前
|
数据采集 人工智能 算法
近五千支队伍决战AI之巅, AFAC2024金融智能创新大赛在2024 Inclusion · 外滩大会完美收官
自从2022年12月ChatGPT上线以来,全球掀起了一场你追我赶的AI竞赛,不少国家都在全力以赴,抢占制高点。
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
339 17
|
2月前
|
机器学习/深度学习 人工智能 监控
CEO和CIO如何在企业中引领AI革命 扮演战略领航者的角色
CEO和CIO如何在企业中引领AI革命 扮演战略领航者的角色