IBM陈剑:金融行业大数据解决方案实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本文讲的是IBM陈剑:金融行业大数据解决方案实践,当前,行业对于“大数据”的关注疾速攀升,这并不亚于数据本身的增长程度。您是否想过,我们看到的“谈大数据色变”或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的“金矿”,为自己的业务飙升迈出制胜一步。

  作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,为大数据环境下的企业描绘了一幅宏伟的战略蓝图。在此基础上,IBM全面整合内部资源,搭建了融软件、硬件、服务为一体的大数据平台,为企业提供易执行、低成本、高效率的大数据解决方案。在行业方面,IBM为行业企业量身定制的大数据解决方案优势充分凸显,大数据制胜策略已不再纸上谈兵,实践之花也开遍制造、电信、金融等诸多行业。

  IBM软件集团大中华区银行业解决方案高级顾问陈剑从金融行业大数据解决方案实践详细了大数据的价值。

  陈剑指出其实谈到大数据,最初大家知道Hadoop这样的技术是来自于互联网,大家可以仔细想一想在传统行业里有哪些行业的规模能够跟互联网可以PK的,一个是金融业,因为它的用户数非常大,二是电信业,三是相关的媒体游戏行业,是多媒体的数据。

IBM陈剑:金融行业大数据解决方案实践
▲IBM软件集团大中华区银行业解决方案高级顾问陈剑

  在金融行业,我下面给大家在进入案例的分享之前,我接着刚才谈论的话题强调一下大数据平台跟我们传统的数据架构,一个企业架构里面的关系。刚才我们谈到大数据平台其实它是对数据仓库,对原有我们的数据库的扩展和增强,而不是一个替代。刚才我们反复提到数据治理,在数据治理的领域,我们希望给大家一个很强的信息,大数据平台它引入以后会对传统的数据仓库是一个很好的补充和增强。特别是像银行、电信业,大家知道最珍贵的价值是什么?是客户数据。大家现在不管是电信运营商还是我们的银行,都是同质竞争非常的严重,各家不管是运营商还是银行也好,他们都不断在抢客户,如何把握客户信息,了解客户的需求,以及甚至预测他们下一步的动向是非常重要的。大家知道传统的银行金融的数据,客户数据都在数据仓库里,随着互联网和其他的一些新型的包括移动应用的增加,我们希望通过非结构化的信息能够来补强原有传统上存在数据仓库里客户的档案和信息。它不但在我这个银行也好,或者在我这个电信公司,他的消费模式,他的投资风格之外,在其他的这些平台上,包括社交媒体,包括在其他的第三方的平台上,他们究竟都在干什么。通过这些新的数据来源,能够很好的增强我们在传统的企业类对客户信息的存储和分析应用。

  这张图基本上是刚才谈到大数据的平台,我主要想讲这边,如果大家了解Hadoop这样开源的大数据技术的话,一是存储,提供相对廉价的分布式的存储系统,二是计算,提供类似像MapReduce的技术,能够进行并发的、高效能的计算。大数据引擎基本上完成是存储和计算,但是真正这些存储计算的结果还是要为我们传统的实际的业务系统和其他的应用来使用。我们一定要非常清晰的了解大数据平台和传统的包括统计分析、商业智能、商业报表,包括刚才林总分享的市场营销的解决方案Unika。其实大量的数据在大数据引擎里的计算和存储,它的中间结果是需要被我们真正的业务系统去使用的,这是我希望这一页给大家非常明确的信息。

IBM陈剑:金融行业大数据解决方案实践
▲IBM的大数据愿景

  下面进入关于金融业大数据的分享。大家都知道,对于金融业和银行业来说非常重要的,像IBM对银行业的观点是三点,一是提高我的运营效率,二是降低成本,提高客户的满意度,特别是像银行这样的金融机构,最重要在某种意义上银行是帮你管钱和帮你做投资的,在另外某种意义上来讲,银行经营的是风险业务。后面会讲到信用卡欺诈的案例,如果风险没有处理好,会带来怎么样的对盈利和企业市场的印象会造成多大的负面影响。很快从这三个方面跟大家分享一下,IBM理解的在银行金融业在哪些方面大数据是有用武之地的,这边列了很多都是我们正在跟很多的世界各地用户包括我们本地的银行,像保险公司都在做的事情。像保险公司这样,最重要是前台,我要洞察我的客户,洞察我这个市场的一些情况。社交媒体分析就不详细讲了。另外一个场景也是我们这两年在跟很多金融机构做的相应的项目就是呼叫记录的分析,大家都有热线电话,比如9555这样的热线电话,打进去以后很多机构把相关的电话记录,不管是咨询的还是投诉的电话都记录下来存为文本,以前相应的因为技术的问题,自然语言的理解和大数据的量非常大,是不是能够及时的处理,这是一个领域,对于呼叫中心记录的分析。在此基础之上,刚才我反复谈到客户,通过收集这些信息和分析,我们能够很好的做到客户挽留,如果我从他的投诉记录次数和内容里面,可以知道所谓的情感,说我已经投诉了,你再不解决我就要换到别家了。还可以做到增强客户的细分,去年在国内很大的行做客户细分的工作,大家知道现在很多的银行都在卖理财产品,其实卖理财产品,还包括黄金投资、外汇的交易,如何很好的去给相应的客户推荐这些东西,是要基于以前的交易记录和资金量的分析来做的,这是客户细分。如果做好的客户细分,我们就能做相应产品的推荐,不管是准实时的还是实时的。还有像投资的金融机构对于市场条件的变化是非常敏感的,相应的市场交易分析是很重要的。这是谈到前台。


 对于后台来讲,我们金融机构希望节约成本,这也是这两年金融危机以后我们发现一个非常大的趋势。这一块我们总结主要是几个方面,一是刚才谈到的数据仓库和新的大数据平台之间的关系。对于像银行和金融机构来讲,监管是非常严的,银行10多年的交易数据必须是保存在那儿,随时可能因为一些调查会随时调出来。这些数据怎么去存放?历史的数据,10年前的数据存在什么地方,如果监管机构进行调查是不是可以很快拿出来。而且很重要的一点,像一些历史数据,可能数据格式随着时间的发展,数据格式和用的数据库的版本和一些工具是不一样的,怎么进行管理,这是一个非常重要的点,这也是我们跟很多银行在做一些项目的时候非常重要的点。后面两点是跟机器数据有关系,有一些厂商是处理机器数据,像银行这样的系统非常多,比如做一个交易可能发现始终不能完成,系统可能发生故障,怎么去定位,因为对一个用户来讲就是通过网银登陆界面做一个交易,最终做这个交易的系统可能是某一个隐藏在后端很深的系统,当这个客户打电话报这个故障的时候,怎么及时定位到故障的系统采取相应的措施,这是非常重要的一点。这一块基本上是数据本身的管理和一些跟机器产生的数据相关的,如果这些能够很好的做,就能提高相应的成本控制,也能提高客户满意度。

IBM陈剑:金融行业大数据解决方案实践
▲金融银行业大数据常见应用场景

  最后一个方面也是比较重要的,可能跟别的一些像零售行业不一样的,就是风险和欺诈。这方面IBM的案例也是非常多的,大家知道可能欺诈的行为是不一样的,IBM在这个领域除了像Hadoop,除了基于大数据的引擎之外,还有专业的反欺诈的工具来进行帮助。举个例子,比如我们有一个产品叫做I2,是做反欺诈调查的,不管是欺诈还是洗钱都是牵扯到非常多的网络,我们的工具能够把大量的数据导入,然后知道汇款人之间的可视化的节点图,我们找到关键的节点,这些人短期内大量的进行小额的转款,我们很容易发现这样欺诈的行为,这是一种反欺诈的案例。

  再跟大家分享一个,我们有一个解决方案,大家知道SPSS统计分析的工具,我们SPSS有一个增强的功能,大家知道网上造假非常多,不管是钓鱼也好,或者编造一些身份来造假,比如骗取信用卡的套现,在国外,信用卡的号一旦被套取,就可以在一些网站上自由的去消费,我们的SPSS工具,你做这些交易的时候难免会露蛛丝马迹,比如你在某些地方用的是一个E-mail号,可能你的名字用的是张三,但另外一个地方用的是李四,因为你要注册,有时候难免会留下同样的电子邮件,我们从大数据和刚才提到不管是Hadoop还是Streams,进到风险模型里就把这些东西积累起来,第一次看到张三的人做了交易,当时登录的E-mail的地址是Gmail的地址。第二天上来一个叫李四的,但可能是另外一个帐号,但地址信息可能是另外一个省的某个人,但E-mail地址恰巧又是Gmail的地址,这时候很容易关联起来。相应的这些统计分析工具是在大数据的基础之上,真正为我们的金融机构带来业务价值的地方,这一点是希望给大家一个认知。

  后面我通过两个实际的案例给大家介绍一下目前在金融行业做的一些事情。刚才谈到大数据分为不管是3个还是4个,Hadoop流和数据仓库,我们主要是关注Hadoop这边。这是美国的Visa的反欺诈,美国大概每一百美元的信用卡交易其中有七个美分是虚假的,可能是信用卡被盗刷,如果这个解决不好的话,每年有数十亿美元的损失,有些可能是用户自己去负责,有些是信用卡公司给解决。反欺诈的手法和欺诈的模式是经常变化的,对于这种信用卡公司来讲,他们如何去及时的发现和对一些事后调查,能够很好的找出来,最重要的就是反欺诈的模型,要建一个统计模型,这是非常重要的。但是对于像这个信用卡客户这样的机构,以前的交易量非常大,要做相应的模型优化,成本是非常高的,大家可以看一下这个时间,传统上这种进行一次模型的重新算一遍,因为量非常大,要一个月才能做到,采用基于IBM的BigInsights Hadoop的方案以后,它做了一个测试,两年的交易记录是730亿笔的交易,量是36TB的数据,调进去可以做到两小时就把相应的模型重新的建立一遍。刚才我们提到所谓的存量数据会对它进行一个分析。我们把详细的交易数据放到分布式的集群里面进行相应的转化统计,然后去优化相应的模型。未来这个模型就可以用到实时的一些反欺诈的应用里,真正的应用系统怎么来使用我们的平台。交易类的系统会相应的调取分析平台的结果,通过相应的模式进行一个判断,可能在申请新的信用卡或者某一笔授权交易的时候通过这个模型来判断是不是发给他新的卡,或者这笔交易是不是要拒绝。这是一个例子。

IBM陈剑:金融行业大数据解决方案实践
▲更多报道点击进入专题

  补充一下我们在多伦多的证券交易所的案例,它是对证券交易的欺诈监控系统,其实是跟这个类似的。对于证券交易来说,有一些行为和操作方式是不被允许的,传统的都是事后去监督,做一些老鼠仓这样的行为,其实是比较难监督的。有了大数据的快速分析以后,我们可以实时的去匹配一些交易的行为的模型,实时的进行一些监控,不一定当时把它的交易马上停止,可以很方便的把这些信息可能的欺诈行为转给我们的监管部门。

  我们在美国大型的零售银行做的一个案例,这一块是刚才介绍到的所谓机器数据。因为对一个银行来讲,国外提供存款取款以及支票服务、贷款服务和其他的投资服务,现在绝大多数的交易都可以在网上做,用户在做的过程当中很可能会遇到,他反馈回来的结果有一些结果有异议,有一些后台系统会失效。遇到这种情况,客户会打电话到客服,我们网银也会遇到过,某些时候页面出不来,当你打电话到800的时候,相应的客服人员不太可能实时的知道这个问题。对这家银行来讲,以前需要24小时的时间间隔才能去反馈知道究竟是什么问题。这样对客户的满意度是一个比较大的问题,他们希望找到一个办法能够很快的解决这个问题。基本上的做法是这样的,对银行来讲它的系统是非常多,带来的问题是日志孤岛,这个系统跟那个系统交易是有先后顺序的,很多时候很难关联起来,而且是在不同的平台和不同的系统,格式也不一样,怎么才能知道这一笔交易牵扯到从存款账户转了多少钱到基金账户,这是两个系统,格式也不一样。相应的带来还需要去定制相应的应用程序可能要更改流程。这一块的解决方案是什么?我们利用现在大数据的能力把分布在各个地方的原始数据和原始的日志定时每隔一分钟进行收集和抽取,放到分布式文件系统里,我们通过研究院的解决方案,很快的能够建立起一些索引,这样能提供一个很方便的前端,让它能够实时的查询。做了这个系统以后,达到一个效果,一旦有客户打电话投诉的时候,我可以很快的通过一个最简单的Web的门户,对所有的相关系统的日志有一个检索和生成相应的报表。这是另外一个未来我们在机器数据里怎么很好的利用大数据解决以前比较困难的应用场景。

作者: 李伟

来源: IT168

原文标题:IBM陈剑:金融行业大数据解决方案实践


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
17天前
|
机器学习/深度学习 自然语言处理 监控
金融行业的大数据风控模型:构建安全高效的信用评估体系
金融机构借助大数据风控提升信贷效率,通过数据收集、清洗、特征工程、模型构建与评估来识别风险。关键技术涉及机器学习、深度学习、NLP和实时处理。以下是一个Python风控模型构建的简例,展示了从数据预处理到模型训练、评估的过程,并提及实时监控预警的重要性。该文旨在阐述大数据风控的核心要素和关键技术,并提供基础的代码实现概念。【6月更文挑战第23天】
62 8
|
2月前
|
存储 弹性计算 大数据
【云计算与大数据技术】Google、亚马逊、IBM、阿里云等云计算应用平台介绍讲解(超详细)
【云计算与大数据技术】Google、亚马逊、IBM、阿里云等云计算应用平台介绍讲解(超详细)
288 0
|
存储 运维 Cloud Native
|
人工智能 分布式计算 大数据
从金融行业转型大数据,一路学习点滴的分享!
大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。 本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。
2011 0
|
机器学习/深度学习 人工智能 自然语言处理
|
机器学习/深度学习 人工智能 自然语言处理
Bluemix 之 IBM Watson Conversation 自然对话实践
初步结识Bluemix是在2015年春节,那时候对于一个外来的IBM-PaaS很是好奇,但是又不敢尝试,担心成本高,一直有一种“推倒重来”的感觉,所以当时只做了简单的免费测试;随着2016年产品的成熟变得火热起来,越发难以控制好奇就开始了尝试,起初尝试了MobileData,再有是Push Notification;近期意识到,机器语言打的火热,作为移动开发人员对于机器认知一直处于理论阶段,未曾真正的体验到机器认知带来的快感,由于之前对于昂贵的Watson一直触摸不到,发展至今总算有机会了,Bluemix提供了一个叫 IBM Watson Conversation 的服务,特此体验一把。
1433 0
|
分布式计算 大数据 Hadoop
|
分布式计算 大数据 Hadoop
|
机器学习/深度学习 人工智能 大数据
钢铁业步履蹒跚,中钢如何借助 IBM 率先实现大数据与 AI 化转型?
对于中钢自身管理而言,透过 IDAA 集中搜集、储存、分析与管理关键业务相关的数据资料,可以更快地进行分析,并进行进一步可视化分析评估,简化后续工作并带动后续应用。
1644 0