本文讲的是行业专家全方位全角度阐述大数据,当前,行业对于“大数据”的关注疾速攀升,这并不亚于数据本身的增长程度。您是否想过,我们看到的“谈大数据色变”或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的“金矿”,为自己的业务飙升迈出制胜一步。
作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,为大数据环境下的企业描绘了一幅宏伟的战略蓝图。在此基础上,IBM全面整合内部资源,搭建了融软件、硬件、服务为一体的大数据平台,为企业提供易执行、低成本、高效率的大数据解决方案。在行业方面,IBM为行业企业量身定制的大数据解决方案优势充分凸显,大数据制胜策略已不再纸上谈兵,实践之花也开遍制造、电信、金融等诸多行业。
近日,来自IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理 卜晓军、IBM软件集团大中华区制造事业群总经理 萧丁瑞、IBM软件集团大中华区信息管理软件总经理 卢伟权、IBM软件集团大中华区架构师总经理 林旭光、IBM中国开发中心信息管理首席架构师及大数据架构师 陈奇 博士、IBM大中华区软件事业部银行业解决方案高级顾问陈剑等专家就IBM大数据的战略以及技术方面以及在行业里面的应用场景与记者进行了全面的交流。
记者:目前商业银行认为现在对于大数据的策略有难度,这一块他们在想借鉴一下互联网公司做法,IBM提出大数据的平台怎么与跟他们有一个很好的融合,能够觉得在处理数据的时候不会遇到他们所想象的困难和难度在里面。
陈剑:目前大家比较关心的几个领域,一是跟数据仓库的关系,其实真正的核心系统类似交易系统不太会直接去动。刚才谈到客户的分析,客户行为、客户分群,未来做精准营销。其实跟互联网类似的一些应用场景,大家知道银行的网站的分析是做得不够,包括之前我们跟很多大行在交流,对它的网站访问信息,知道点击的行为,比如一个用户上我的网站,在我房贷的页面停留10分钟,以前这个信息银行是存下来,但是是在一些日志文件里,没有被挖掘出来。如果未来借鉴互联网应用的比如电商这些就可以很好的,我知道这个人在我的网站某个领域停留一段时间,知道可能对什么感兴趣,这样我再做营销就非常精准,这是我们谈的精准银行的一部分,这是针对网站的分析。
刚才在分享的过程当中也谈到交易的分析,这是我跟五大行之一去年做了很长时间的研究,我们研究院也在里面参与,我们叫做社会统领性分析。现在很多行的所谓的理财产品相关的产品都是同质化非常严重,现在很多人谈社交,其实社教部完全只是发微博和博客,比如我30多岁刚结婚,如果要有小孩,我肯定希望了解跟我收入类似的,我的年龄段的人怎么投资,特别是这两年经济危机的情况,各种理财产品收益也比较低,怎么更好的来组合,更好的一种方式是我能了解,我这个年龄段,我这个收入水平,我这种生活状态,比如未婚到已婚的变化,相应类似的这群人怎么消费和投资,这是非常关键的。我们通过这样的分析,这是大量的分析,我们要知道像有一个行网银用户就是3000万,不管是网银用户还是信用卡刷卡,这个量都非常大。这些需要定期的去按照数据模型进行运算,之前是做不到,我们现在基本上做到,能够通过这个模型计算出这群人,我们是统计算法,能够自动地把客户分群算出来,你会被归到某一类人群里,一旦登陆网银的时候可以自动推送还是把这个结果给销售团队和推广团队,主要利用这个来可以打电话,因为这个就很准确了。这是客户分析方面的。
▲从左到右依次为:IBM软件集团大中华区信息管理软件总经理 卢伟权、IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理 卜晓军、IBM中国开发中心信息管理首席架构师及大数据架构师 陈奇 博士、IBM软件集团大中华区制造事业群总经理 萧丁瑞、IBM软件集团大中华区架构师总经理 林旭光、IBM大中华区软件事业部银行业解决方案高级顾问 陈剑
另外,我们跟银行交流比较多的是历史数据管理。刚才也谈到十几年的数据怎么来分区,哪些东西放到传统的数据仓库,哪些放到分布式集群里,还有数据本身的生命周期,哪些东西进行一定的运算以后就扔掉了,不一定存起来,可能只存相应的结果。这些是我们谈得非常多,也是做很多相应的试点工作。随着时间的推移,可能下半年我们会看到越来越多更多的案例出来。
卢伟权:我们跟很多金融行业的客户沟通了,他们比较看重的是现在整个数据架构,不仅是数据平台架构,还有数据架构,举个例子,哪些数据放在主机,哪些数据放在传统的数据仓库,哪些数据放在Hadoop的平台,哪些数据为什么要放在不同的平台,这是比较担心的,因为现在有不同的平台可以根据数据的重要性和根据数据的实时性,有一些很实时的数据放在哪儿,根据数据的可用性怎么去用它,根据不同的维度怎么把这些数据放在不同的平台,达到最优化的效果,在有限的资源里怎么搭建这样的平台,把不同类型的数据用起来。在IBM来说,我们都是有不同的平台是可以满足客户,IBM也是比较全的,比如我们去看交易量,我们有主机的平台,我们也有数据仓库,当你说大数据和非结构化数据,我们也有非结构化数据的平台,这三个平台都可以整合在一起。这是客户比较关心的。
除了刚才说的这些互联网上的停留多少,还有一些客户,因为电子渠道现在是一个很重要的渠道,怎么去优化你的电子渠道呢?举个例子,我到一个网点去做一个交易,我碰到一些问题,我打电话给你,你根本不知道我遇到什么问题,做了什么事情。有一些应用是说把客户在网银上所做的事情都记录下来,当他有问题的时候,你可以找到这个客户在什么时候做过什么事情,所有你做的事情都已经在互联网上记录下来,当你有问题,你打电话给我,我就可以你做的交易是怎么样的,你做了什么事情,我根据你做的事情,遇到什么问题,可以优化我的网银做法。这也是一个应用,除了看客户的行为,还有就是优化我这个渠道,这也是需要很大量的数据才可以去优化。
林旭光:在去年底和今年年初大家一直在谈大数据的时候,客户第一次跟我们讲怎么用大数据和Hadoop结合现有的数据仓库,或者用更低的成本建数据仓库,客户也慢慢感受到其实互联网公司,比如淘宝、谷歌的成功只是在物联网这个数据和它的业务上,可是你重新看银行、电信公司,物联网的数据应用只是一小部分的补充功能,我们觉得在这半年过来,客户已经慢慢了解到这个技术本身是有限制性的,客户已经不会告诉你怎么取缔这个数据仓库,他只是说怎么做互补的工作,更重要是把工作数据送到同一个市场、同一个数据架构,整理出来做更有效的分析工作。这是IBM一直在强调的,可能是跟其他客户交流的时候总结的经验。
卜晓军:因为银行的确是这个行业够大,我也稍微补充一点,刚才各位已经从不同的角度来看,我还有另外一个角度,大数据从互联网起来之后,我们其他的行业,银行、电信等等,甚至制造业都在谈,IT部门前瞻性的认为大数据是一个趋势,不能够去承担说不去拥抱大数据的数据所带来企业的损失。从IT部门会看怎么样做这件事情,大数据是不是在我们所说的无论是银行、电信,不是每个行业里都有非常成熟的应用,IBM还有很好的能力可以帮助客户的IT部门更重要的是业务部门去发现说我到底大数据的技术最适合应用在什么样的业务场景之下给你带来商业价值。这是比纯粹的技术讨论可能更容易让客户去决定启动项目,一定是这个起点在哪里,有点像六年前谈SOA的时候有一个理想王国,但是我们的切入点在哪里,大数据也是一样,如果我们接纳大数据我们的切入点在什么地方。我们在两天之前在一家交易所,我们国外过来的专家介绍国外华尔街交易所经验的时候,讲到大数据的切入点,针对于交易所更重要的是大量的快速的交易,每秒钟上百万笔的交易如何中间能够及时的分析,发现一些交易异常,及时进行一些分析,帮助做一些决策。我们就会发现这时候通过IBM的InfoSphere Streams作为切入点,可能不见得是做Hadoop,今天IBM给客户能带来的商业价值是什么,有一些地方是比较清楚的,比如在电信行业,移动互联网的行为分析非常清楚,今天甚至我们移动总公司把一些规范都制定出来。有一些行业是比较新兴的,我们怎么样在大数据的完整的概念之下,完整的架构之下,我们帮助客户在转型找到切入点,这也是IBM的责任。我这边做一点补充,业务价值以及切入点的问题。
记者:非结构化数据的应用,比如像来自于社会普通的社交网络和视频的应用,从目前了解的情况来看,国内的发展商和国内的用户这种非结构化数据,尤其是利用它来做业务分析和决策的案例几乎还是没有,可能大家还是比较集中那些海量的结构化数据的业务的方面。请问非结构化数据从技术上没有什么问题,可能没有得到实际的应用,原因在于哪些方面同时,您怎么看待非结构化业务分析的应用国内的应用前景?
陈奇:原来企事业更重视结构化,非结构化是更贴近于原始的数据。像银行是经过处理数据,刚才我提到的应用,像图像摄别的技术,比如有几亿张图片怎么存储,包括原来的传统手段并没有达到。IBM推出大数据的平台希望能做到包括图像摄别和声音的摄别。比如很简单的,像去银行存钱的话,会把你的身份证存在那里,这是一个非结构化的数据,包括你把身份证和交易关联的话,也是一个非结构化的应用,这是很简单的应用。更复杂的应用包括对图像的摄别和声音的摄别,比如去买东西,把这句话录入到电脑里,有一个是准确性,一方面是摄别的算法和手段没有达到,另一方面是数据量非常大,这些数据量怎么存储和快速的摄别,这都是技术上的问题,也是以前没有大数据的时候,首先怎么存,怎么算这个数据,就算是很精确的算法,如果没有基准的话,得出的结果也不是很准确。随着数据量越来越大,现在不光是互联网,特别是各个企业对用户行为的分析等等,这些都是非结构化的,比如在网上点击一下,或者是写一些东西留在网上,比如对哪个品牌的爱好,写一条微博,可以写长也可以写短,不光是手机厂商或者是银行的网银希望从你的微博或者从留言可以看出你对品牌的爱好或者你的倾向,这就是很多传统的企业会关心的,不光是互联网企业会关心。现在因为有大数据,对数据量越来越大,你希望用快速的手段去分析,也希望提供一些很好的手段来达到分析的效果。
卜晓军:刚才提到特别是大数据当中的非结构化数据分析对于中国或者是我们的应用前景是怎么样的?要稍微回顾一下历史,非结构化数据在大数据还没有讲之前,非结构化数据是客观存在的。那时候我们是怎么处理的?那时候有企业内容管理在处理,把非结构化数据放在流程里去处理,这是过去。今天我们讲的大数据对非结构化数据提到的是分析,之前所不具备的能力,而且我们有新的技术去处理和分析这样的能力。而分析这样的非结构化数据,如果大家再往前走进一步,为什么要做分析?大家还记得在5月17号分析洞察的会议上,我们请了IDC亚太区的总裁提到的所有的非结构化数据的分析是多了一个数据源,帮助我们去做更好的决策,这是核心。我们提供很好的技术和Platform帮助我们做更好的决策。今天给大家一个想象的空间,我们在去年2月14号IBM的沃森去提供的专家系统做专家的问答系统,能够去打败人类,它用到大数据的数据处理结构化、非结构化数据,而且能够进行大量的语义化的分析,最后能够模拟人类,帮助人类,甚至替代人类做决策,而且赢了人类。我记得在上个星期三的时候,IBM的全球总裁在中国做了全体的高层的会议上特别提到,展望未来,如果我们不仅仅是捕捉市场上的热点话题,像大数据或者是社交网络或者是Mobility,今天IBM如何去发挥我们的独特性,我们的沃森,去创造未来。这就是刚才提到我们如何真正能够对于结构化和非结构化数据里不仅仅是处理流程里,特别是分析如何去帮助我们的企业去做更好的决策,IBM目前投资在我们的医疗和金融两个领域让沃森投入到商用,和美国顶尖的医疗机构包括和花旗集团做这样的研究,希望把大数据分析的能力应用到未来的业务当中去,能够帮助我们的企业做更好的决策。如果我们想象,把所有的业界知识都结合在一起,如果我们今天的IBM沃森能够像手机一样,它的能力如果在手机里,能够帮助我们做日常的,无论是业务还是老百姓日常生活当中,来帮助我们,那未来的世界就会不一样。
提问:请问卢总,现在有很多厂商都在做Hadoop优化版本,像EMC、Intel、包括Hadoop也会内置到其中当中,IBM怎么对Hadoop进行优化,有的Hadoop是基于x86的架构上,IBM是不是能够把Hadoop进一步扩散,把相应的技术原理用在IBM Power机器上,在目前看,x86架构上的大数据的应用平台和IBM看到的整个大数据应用平台之间的差距在哪儿?
第二个问题请问萧总,应用要讲应用的切入点,在您看来,比如在制造业的大数据切入点在哪个方向?
卢伟权:我先回答第一个问题,IBM在Hadoop的平台上做了一些什么样的优化。在市场上大家都拿着Hadoop在上面做一些优化工作,Hadoop只是在大数据平台里其中一部分,因为还有很多不同的Adaptor来分析周期。IBM做的是,我们花了很大力气,把在不同的Adaptor和Hadoop平台怎么去整合在一起,如果你去网上,你要下载一个Hadoop,可能要下载很多不同种类的开源的东西才可以并在一起,然后自己还要做一个整合,有可能还跑不起来。如果你到我们网站上去,我们有一个免费的,把所有跟Hadoop不同的数据库和连接器都做了测试,可以很容易安装,你第一时间就可以把所有东西拿到。
根据我们在数据库几十年,从主机的数据库到开放平台的数据库,怎么去管理数据这一块,我们把我们的经验搭载怎么管理Hadoop的平台上,有一个数据管理。IBM在这一块做了一些怎么管理Hadoop平台的管理功能,这也是花了我们很多力量去做的。
Hadoop只是一个平台,里面是没有什么分析的功能,里面很多东西都没有,我们在Hadoop的平台上已经建了很多功能在上面,普遍要用的功能在上面建起来,已经有了,不需要自己拿到一个Hadoop还得花很多开发的力量,才能做到很简单去做的事情。在这几个部分,我们加起来是我们的BigInsights,这本身在Hadoop的平台,我们加了很多其他的附加值的东西,就变成BigInsights。我们的产品不是Hadoop,我们的产品是BigInsights。在Hadoop开源的平台,我们增加了这些东西,等于我们以前也做过同样的事情,比如AIX就是用Unix的平台开发出来的,为什么AIX现在变成了一个主流,在Power Systems上?因为IBM已经很有经验把开源的东西变成商业化的东西,我们根据过去的经验来做这些事情。
Hadoop的平台大部分都是跑在x86的平台,但是在IBM来说,我们也有另外一个平台是根据Power Systems,Power Linux平台也是可以跑BigInsights。我们在华东区有一个的平台,IBM STG他们是提供了Power Linux。有一个好处是,Power的处理能力比x86要高,不单只是用Hadoop平台并行处理,而且每一台机器本身的处理能够更高,IBM也有这样优化的地方,不单只是在x86,还有在Power Linux上平台上跑BigInsights,Big Data的解决方案。
提问:x86的大数据处理平台跟现在的BigInsights整个大的蓝图相比还缺哪些方面?
卢伟权:基本上我们在Hadoop上加了这些东西,不单是BigInsights,就是Hadoop平台静态的分析,我们跟其他厂商最大的一个分别是他们是没有流数据处理的能力,而大数据的其中一个就是速度,等于是数据流,量很大,速度很快,而且能够处理大数据的这一个特点,其他的厂家只是用Hadoop的平台上搭建一些东西。我个人看x86只是一个平台,上面跑什么东西就决定你达到哪一个平台是怎么样,这个平台决定整个大数据的平台怎么样,硬件是一个很大的框架,甚至有人说,硬件已经是可验检结构机器化的,是在x86平台和大数据的平台上都很普遍的,主要是看管理Hadoop和BigInsights的平台管理工具是不是很全,而不是硬件的问题。
卜晓军:我延展一下IBM的差异化在哪里?除了刚才卢总讲的问题以外,我们刚才讲了“3A5步”,IBM有完整的能力到分析和行动,包括企业营销等等,基于我们技术分析的内容,真的能够去指导行动,帮助我们做更好的决策,这个完整的能力并不是每一个厂家能有的。刚才说软件,IBM还有两条很重要的事业线,一个是服务部门,一个是硬件部门。软件在硬件上的表现,我们针对Hadoop Systems还有一个增强型的系统,这是和我们部门联合研发的,我们不仅支持x,也支持P上的Linux平台,要保护很多客户在P上已有的投资,有IBM这么强的业务咨询的能力,刚才大家问Big Data在企业里解决什么样的问题,其实IBM有业务咨询部门,是可以帮助我们的客户共同去看到说大数据在整个企业信息架构下到底担当什么角色,解决哪些业务问题,现实当中软件部门和服务部门形成一个特别的团队,其实在一些大的客户这边已经开展类似大数据的业务,我们叫做业务价值发现的一些workshop,在我们萧总的客户当中已经开展这样的合作,把IBM端到端的,服务、软件、硬件整体的能力带给客户。
陈剑:IBM的平台是很宽泛的,很多我们都支持。另外,IBM很多解决方案是开放性的。谈到大数据,大家谈到Hadoop,IBM不仅支持标准的Hadoop,也提供对一些比较流行的Hadoop的Distribution的支持,现在我们比较准备好的是Cloudera,这是第三方的。如果客户他们即使是之前,因为很多玩开源的一些公司也好,稍微小一点的企业也好,他们可能都是之前做过一些尝试,如果是基于开源的,比如原来已经用了Cloudera这样的Distribution,可以非常平滑的移动到IBM企业级的Hadoop的平台上,跟某些厂商不一样,他们可能是你的软件硬件,你只能用他们家的,这是我们IBM跟某些友商不太一样的地方。
萧丁瑞:制造业可以这么分,从业务形态和生产形态关注点会不一样。从业务形态来看,目前以现有的状况会对大数据这一块有很大感兴趣的业务部门和客户服务部门,甚至于我们进的产品设计部门,会针对消费电子和消费市场这一块,才有那么多的数据来源。二是从生产面来看,我们一般说组装业和生产是不一样的,大部分的组装业没有那么多的大数据,因为组装就是比较单纯的组装,但是连续性生产就很多了。光IBM本身自己,我们的半导体的厂,本身就是最好的示范,我们用的所有整套大数据的解决方案,半导体最重要的是机台,机台的速度很快,相对的半导体里面有很多pattern,这些东西是非结构性的,怎么把这两个结合起来找到我们讲的半导体很重要的一点是提供它的良率,机台使用和良率都很重要。还有机台的维护和预测,如果能够减少维护的时间,相对于生产率更高,这都是我们很成功的案例。目前半导体业里,我们也见过几个案例,就是用了我们成功的案例,我们要从产业别和制造别来分。
还有石油石化行业也是一样,从勘探、制造、生产等等,其实每一段产生的都很多,甚至讲到工业安全,在石油石化上是很重要的,尤其像管道也好,整个工厂也好。我们需要有很多实验室去抓这些信息,这个量都是很大的。再比对我们的维修手册,把这个做得很好,减少一些事件。
作者: 李伟
来源: IT168
原文标题:行业专家全方位全角度阐述大数据