上海浦发银行总行信息科技部大数据专家陈春宝:大数据与机器学习重塑零售银行业务

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

人工智能、区块链、容器技术等新兴技术的快速演进和发展,正在不断地推进企业数字化变革。8月10日,由上海市经济和信息化委员会、上海市国有资产监督管理委员会指导,上海市国有资产信息中心、上海市计算机用户协会协办,畅享网主办的“颠覆·创新 IT决胜未来——第二届创新技术CIO高峰论坛”在上海掀起了一股关于探讨创新技术发展和实践的热潮。百余位CIO、IT专家、学者们莅临本次峰会,大会上午探索创新技术发展,下午分享创新技术实践,参会嘉宾重新思考“新技术”的落地路径,共同寻找企业信息化变革的新机遇,打造企业最佳IT应用实践。

会上,上海浦东发展银行总行信息科技部大数据专家陈春宝为我们分享了《大数据与机器学习重塑零售银行业务》,以下为演讲实录,畅享网整理。

各位领导,各位同仁,大家上午好!很感谢主办方给我们这么好的时间,大家可以一边回味上午讲的内容,一边听我聊一聊大数据在银行业的应用。首先先做我行的介绍:浦发银行是一家上市银行,关于浦发银行的信息大家可以在网上搜索,我主要是说明两点。第一点是我们浦发银行名字叫上海浦东发展银行,但我们全国、全球的业务都做,我们在国内30个省市自治区设有40家分行,在新加坡、香港开设了分行,在伦敦设有代表处,未来我们会覆盖更多的国家;第二点我们是一家以稳健著称的银行,买过浦发银行股票的会有体会(开个玩笑)。

今天我主要分享四部分,第一:总结一下在零售银行业务中,大数据正在重塑的15个应用场景。第二:数字化银行的3个关键技术。第三:我行五个比较有代表性的实践案例。最后介绍一下我们近期规划的五个重点任务。

大数据正在重塑的15个零售业务场景

按照客户生命周期管理曲线,把大数据在零售业务的主要应用归纳为15个场景。第一个在客户获取阶段,有三个场景,首先是获客引流,例如外部合作、各类引流模型。现在是共享经济的时代,每个客户都是独一无二的,但是客户的需求是多元化的,各家公司共同合作可以更好的经营客户,服务客户,这是大势所趋。金融领域非常重要的一个场景是反欺诈,尤其是申请阶段,在这一阶段我们要筑起第一道防火墙,把坏人拦截在外面。互联网金融蓬勃发展,离不开先进的风控模型,其中银行的风险评分卡模型被广泛认可。第一个风控模型是申请评分卡,以及相关的信用评分,这两块主要工作是把坏人拦截在门外。最近很多银行在与厂商一起做反欺诈,主要有四种技术手段,黑名单、规则、评分模型、关系网络。前三个目前在成熟应用,关系网络是未来的发展方向。我们在14年的时候,研发了一个社交网络算法,获得了人民银行的科技发展二等奖,未来关系网络产品化并在反欺诈领域定会发挥更大的价值。

客户提升阶段也是三个场景,客户进来,怎么样让客户活跃起来,是这个阶段要做的事前。第一个场景是精准营销,这也是最成熟的一个领域。精准营销的六大要素,怎么样更精准的把握,非常重要,也就是说在客户拓展进来之后,怎么样让客户为我们产生价值,我们也要为客户带来价值,做到共赢。第三个就是行为评分模型,狭义上指风控领域的行为评分卡,广义上讲金融领域的很多评分模型都可称为行为评分模型。

第三个阶段到了客户成熟阶段,这个阶段怎么样更长久一点,是一个很有挑战性的课题。客户维系分为主动的客户维系和被动的客户维系。被动的客户维系是让客户持有更多的产品,提高客户离开的机会成本。主动的客户维系就是做客户细分,对客群不断的细分,发现每个客群的需求,加载产品,提供服务。什么是产品?什么是服务?有人说有形的是产品,无形的服务。我的理解是,如果我们推荐的产品不是客户需要的,就是销售产品,如果正是客户需要的那就变成了提供服务。第三个场景是欺诈侦测,交易阶段的反欺诈。坏人已经进来了,怎么样在交易阶段及时发现以便尽早采取措施,可以减少损失。

第四阶段是客户衰退阶段,人有生老病死,对于大部分客户来说也会面临着衰退、离开,我们怎么样提前预判老客户即将发生的离开、逾期、损失,提前做准备。这是预测损失发生的概率,第二个场景是预测损失发生的规模,风险一旦发生,危害有多大,测算风险敞口。第三是催收评分模型。当坏账已经形成,哪些我们自己回收、哪些交给催收公司催收,准确判断也可以尽量减少损失。

第五阶段是客户挽留阶段,目前也是设置了整个客户生命周期管理的流程。对于高价值的客户我们会提供更优质的服务,尽可能的防止或者延缓这个阶段的到来。

数字化银行的3个关键技术

接下来介绍这些业务场景背后的三个支撑技术。上午来的时候,同事说我现在再讲大数据太out了,别人都讲人工智能了。我想说AI和大数据不是替代关系,是不同的发展阶段。大数据,意味着更多数据,更多可能,我们怎么样全面认识一个客户,依靠更多的数据。我举个例子:芝麻信用分的征信评分,这个分数来自于哪里?来自于整个阿里庞大的数据板图。阿里这几年在经营一个庞大的产业帝国,背后则是一个数据帝国,每一次扩张都为自己的数据拼图增加几块。现在很多人感觉大数据有点过时了,实际上是因为大数据已经变成我们经营当中必不可少的内容,未来大数据很有可能像水电煤一样,我们拧开龙头随之即来,当然恐怕只有政府有能力做这个事情,除了要有能力汇集、输送全社会的数据,还要有足够的公信力。我们也在持续积累大数据,建立银行版的用户标签体系,按照业务的层面做了多种划分,同时每个标签我们也要按照它的事实层、模型层、预测层做深加工,这个标签体系未来还会不断的往外扩展。

第二是机器学习,数据本身并没有价值,也不会产生价值,除非你把数据卖掉。怎么样从数据当中获取知识?需要机器学习。什么是机器学习?我们每个人都是在不断学习,通过看书、参加论坛获得知识。今天大家参加论坛,感觉没学到东西,下次就不来了。如果觉得今天讲的不错,可能会关注主办方畅享网的官网,也可能到百度搜索一下嘉宾,学习嘉宾以前分享的知识,这是我们人类的学习。机器学习模式是一样的。我讲一个自己的故事,在座的很多都拍过沪牌,很难拍,我第一次拍的时候直接就冲进去看了一些规则,要在45秒的时候出价,我确实在45秒出价了,等到网页打开,手忙脚乱输验证码出错了;第二次又是45秒出价,验证码没打开;第三次我提前5秒钟出价,靠的是我对价格的准确预测,一次就中了,因为我多了5秒的时间足够后面的操作。机器学习有很多算法,包括人工智能里面有一些算法也是机器学习领域的。目前我们在用的这么多算法,我归纳为这么6类、二十几个,其中神经网络,尤其是深度学习,大家通常会把它称为人工智能算法。

第三个是移动互联网,大数据和机器学习强化了我们的大脑,但是为什么这几年,在很多领域产生的实际价值低于预期?原因就在执行力不够。现在人工智能要解决的不仅是思考端,更主要的是执行端。我们也有经营的缺陷,以前我们经营局限在中间的小圈里面,我们有什么金融产品,老是在这个小圈里做文章。最近两年在往外拓展,未来怎么样把我们的金融服务融合到实体产业、大众居民的日常生活当中去,是我们要发展的一个趋势。举个例子,大家去医院看病,可能花两个小时排队,医生看病花了5分钟,再去花半个小时排队付费,再回来看病。如果说医院跟银行合作研发一个便利看病新的业务模式,未来很有可能变成你去医院只要看病就可以了,中间不需要排队、付费,银行帮你结算,通过移动互联网这个愿景并不遥远。这三个技术加起来促成人工智能的应用,人工智能如要真正发挥价值,其三个最主要的支撑就是大数据、机器学习和移动互联网,像人一样的学习、思考、执行。

浦发银行数字化实践的5个典型案例

目前人工智能的应有很多,上午介绍的语音识别、智能机器人等等。我介绍一下这几年我们五个最经典的案例。阿里有芝麻信用,我们也有浦发的信用分,我们自己开发评分的算法,对每个客户打上信用分,运用到我们很多场景当中。其中有一个消费信贷,由于银行对风控管的很严,因为要对客户的资产负责,所以我们之前审贷是很严格的,很多客户到了审批环节就被拒掉了,我们用了这个模型之后,把风控前置到营销环节,提前发现一些明显评分偏低的、有信用缺陷的客户,在营销的时候过滤掉这些客户,可以节省营销资源、改善客户体验,目前这款网贷产品的营销拒贷率降为原来的一半,这是信用分的作用。这个模型与网贷平台去年获得了人行科技发展二等奖。

第二我们在做手机银行的“猜你喜欢”。网上我们买东西的时候经常会跳出来一些推荐,这个技术已经很成熟,这一块我们起步相对晚一点,目前也开始做。我们有很多金融产品,针对每个客户,计算对不同产品的喜好度,在手机银行上给每个人展示他最喜欢的、最感兴趣的产品,提升用户的活跃度和使用体验。

第三是最成熟的精准营销,精准营销最主要的一个变化,就是由原来的单次、大批量客户的营销模式,变成目前的高频次、每一次小批量的客户营销。我举几个代表性的营销案例,比如我们有爱客计划,通过模型识别客户的潜在需求,推荐感兴趣的产品和服务,我们的成功率接近10%。不用模型,用传统的方式则非常低。像商旅套餐,结合内外部数据构建模型并开展营销,对每一个数据标签做价值评估,作为外部数据合作和采购的依据。

第四是平衡风控和营销,我们推出了一个分分钟放款的信贷产品。依据经验做营销,营销响应率不足2%。我们通过三个模型,一个是营销模型,识别客户的需求,一个是信用模型,还有一个违约评分模型,通过这三套模型达到营销成功率接近10%,审批通过率超过50%,最终落地成功率相比传统模式提升了20倍。

第五是为各个业务场景做客户画像,辅助决策。我们说大数据,对应着大量的标签。当遇到一个问题的时候,究竟应该用哪一个标签?针对成千上万个客户标签,利用我们自己研发的特征识别算法,最快几分钟就能算出结果,给每一个场景画客户的脸谱。比如三个月内哪些客户有过存取款、半个月内谁在做跨行转帐等等。

近期规划的五个主要任务

最后我介绍一下近期规划。我们的目标是让业务更智能、更自动,更便捷。第一我们正在构建全域数据的地图,当数据过多的时候,使用数据的人会面临一个困惑,我要的数据在哪里?哪一个才是我真正想要的数据?这些数据之间有什么关系?这个属于数据治理范畴,但却是大数据分析和应用的基础。

第二是数据VTM,自助式取数下单。联想集团的单总说了一句话我很认同,技术发展很重要,但更重要的是要融入业务,促进业务发展。我们数据要用到业务里面去,目前传统企业,我相信大部分企业都是IT是一波人,业务是一波人,当业务需要数据的时候提个需求,让IT人帮忙取,但是有时候会有问题。比如昨天晚上我们有业务的同事急需一批数据,我们的人员又在忙于其他更重要的事前,业务人员只好自己来写代码,这其实也挺好的。因为业务人员掌握一定的技术,有助于他提出更合理的数据需求。当然我们也在向业务靠拢,会要求技术人员参与到业务中去,另外我们也在积极研发更多数据产品,便利业务人员更方便、容易的取到数据。例如我刚刚说的用户脸谱,如果给客户经理一个界面,他可以根据算法甄选出来的特征标签自己去定制、筛选客户清单,自助获取数据去开展业务。

第三我们要运用多渠道、自动化的推送机器学习结论,把有意义的数据挖掘结论固化下来,定期生成并推送到决策者、执行者的手机中去,让分析报告“活”起来。

第四智能化计算和建模,服务于移动互联网终端。传统的IT模型建好之后需要开发、变更,周期很长。急需更敏捷的投产方式,上午建成的模型,下午就能部署、应用,与传统方式两条腿走路,最终的目的是为执行端提供更好的决策支持。

第五AI业务架构再造。

通过这张图,把我刚才介绍的都串起来,包括数据、算法、工具、产品等,促进业务更智能、自动、便捷的开展。

最后如果大家对我介绍的内容感兴趣,欢迎参阅《大数据与机器学习:实践方法与行业案例》这本书,谢谢各位。





本文出处:畅享网
本文来自云栖社区合作伙伴畅享网,了解相关信息可以关注vsharing.com网站。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
31 15
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
111 10
|
26天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
170 5
|
4月前
|
机器学习/深度学习 供应链 大数据
【2023Mathorcup大数据】B题 电商零售商家需求预测及库存优化问题 python代码解析
本文提供了2023年MathorCup大数据竞赛B题的电商零售商家需求预测及库存优化问题的Python代码解析,涉及数据预处理、特征工程、时间序列预测、聚类分析以及模型预测性能评价等步骤。
211 0
|
2月前
|
机器学习/深度学习 自然语言处理 JavaScript
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
在信息论、机器学习和统计学领域中,KL散度(Kullback-Leibler散度)是量化概率分布差异的关键概念。本文深入探讨了KL散度及其相关概念,包括Jensen-Shannon散度和Renyi散度。KL散度用于衡量两个概率分布之间的差异,而Jensen-Shannon散度则提供了一种对称的度量方式。Renyi散度通过可调参数α,提供了更灵活的散度度量。这些概念不仅在理论研究中至关重要,在实际应用中也广泛用于数据压缩、变分自编码器、强化学习等领域。通过分析电子商务中的数据漂移实例,展示了这些散度指标在捕捉数据分布变化方面的独特优势,为企业提供了数据驱动的决策支持。
124 2
信息论、机器学习的核心概念:熵、KL散度、JS散度和Renyi散度的深度解析及应用
|
2月前
|
机器学习/深度学习 自然语言处理 算法
大数据与机器学习
大数据与机器学习紧密相关,前者指代海量、多样化且增长迅速的数据集,后者则是使计算机通过数据自动学习并优化的技术。大数据涵盖结构化、半结构化及非结构化的信息,其应用广泛,包括商业智能、金融和医疗保健等领域;而机器学习分为监督学习、无监督学习及强化学习,被应用于图像识别、自然语言处理和推荐系统等方面。二者相结合,能有效提升数据分析的准确性和效率,在智能交通、医疗及金融科技等多个领域创造巨大价值。
132 2
ly~
|
2月前
|
供应链 搜索推荐 大数据
大数据在零售业中的应用
在零售业中,大数据通过分析顾客的购买记录、在线浏览习惯等数据,帮助零售商理解顾客行为并提供个性化服务。例如,分析网站点击路径以了解顾客兴趣,并利用历史购买数据开发智能推荐系统,提升销售和顾客满意度。此外,大数据还能优化库存管理,通过分析销售数据和市场需求,更准确地预测需求,减少库存积压和缺货现象,提高资金流动性。
ly~
455 2
|
4月前
|
机器学习/深度学习 人工智能 Android开发
揭秘AI编程:从零开始构建你的第一个机器学习模型移动应用开发之旅:从新手到专家
【8月更文挑战第29天】本文将带你走进人工智能的奇妙世界,一起探索如何从零开始构建一个机器学习模型。我们将一步步解析整个过程,包括数据收集、预处理、模型选择、训练和测试等步骤,让你对AI编程有一个全面而深入的理解。无论你是AI初学者,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启示。让我们一起开启这段激动人心的AI编程之旅吧! 【8月更文挑战第29天】在这篇文章中,我们将探索移动应用开发的奇妙世界。无论你是刚刚踏入这个领域的新手,还是已经有一定经验的开发者,这篇文章都将为你提供有价值的信息和指导。我们将从基础开始,逐步深入到更复杂的主题,包括移动操作系统的选择、开发工具的使用、
|
4月前
|
机器学习/深度学习 分布式计算 并行计算
性能优化视角:Python与R在大数据与高性能机器学习中的选择
【8月更文第6天】随着数据量的激增,传统的单机计算已经难以满足处理大规模数据集的需求。Python和R作为流行的数据科学语言,各自拥有独特的特性和生态系统来应对大数据和高性能计算的挑战。本文将从性能优化的角度出发,探讨这两种语言在处理大数据集和高性能计算时的不同表现,并提供具体的代码示例。
116 3
|
4月前
|
机器学习/深度学习 分布式计算 算法
MaxCompute 的 MapReduce 与机器学习
【8月更文第31天】随着大数据时代的到来,如何有效地处理和分析海量数据成为了一个重要的课题。MapReduce 是一种编程模型,用于处理和生成大型数据集,其核心思想是将计算任务分解为可以并行处理的小任务。阿里云的 MaxCompute 是一个面向离线数据仓库的计算服务,提供了 MapReduce 接口来处理大规模数据集。本文将探讨如何利用 MaxCompute 的 MapReduce 功能来执行复杂的计算任务,特别是应用于机器学习场景。
103 0
下一篇
DataWorks