本文讲的是探讨:数据驱动型企业与大数据商业模式,2012年7月13日消息,2012第二届大数据世界论坛今天在北京开幕。本次论坛邀请了Forrester Research资深分析师曹宇钦 、IDC中国高级分析师周林等权威第三方咨询机构;微软亚太研发集团首席技术官孙博凯、赛仕软件中国总经理刘政、甲骨文大中华区技术总经理喻思成、Splunk亚太及日本区域副总裁刘文熙等业界主流厂商高层;以及支付宝首席商业智能官车品觉等来自金融、电信、电子商务、制造业等重点应用行业的用户嘉宾等都将与会于业内专业人士面对面探讨如何使用更有效的架构捕捉、存储、整合、管理和分析海量数据,支持企业决策和业务发展,实现大数据的商业价值。
在今天上午的主会场的互动讨论环节中,微软亚太研发集团首席技术官孙博凯、SAS软件大中国区咨询服务和技术总监姚远、英特尔亚太研发有限公司软件与服务事业部软件架构师孙元浩、Splunk亚太及日本区域副总裁刘文熙、甲骨文公司全球副总裁,大中华区技术总经理喻思成、NetApp大中华区技术及专业服务部总监何英华参与了本次主题为《数据驱动型企业与大数据商业模式》的讨论。
现场精彩内容:
主持人:下面请出互动讨论环节,首先有请几位嘉宾,SAS软件的姚远,英特尔的孙元浩,Oracle的喻思成,还有何英华,还有刘文熙。今天上午全部是厂商演讲,有Splunk,都在讲自己的产品和大数据之间的结合。
首先第一个问题,我不需要用技术,希望用简单的一句话通俗易懂地告诉大家,什么是大数据?
刘文熙:我们说大数据是什么意思呢?就是说,非结构化数据,不仅仅是非结构化,传统的关系型的数据库无法对此进行处理,这些数据不仅仅是来自于服务器、日志,来自不同的机器,数据的来源也包括网站、文件流,等等,所有的这一切,来自同样一个事件,由人,由因特网,或者交易事项,或者用银行办理业务,所有的人与机器之间的互动,只要产生了数据,我们就称之为大数据。
喻思成:我给大家举一个例子,比如说我们在座所有的人去医院看病,你的医疗数据就是提炼过的关系型的数据,但是如果说你去看你的病历上有没有心脏病,这是一条记录。如果你在测心脏的时候可能有一个24小时心脏仪器测试出来的数据,如果把24小时心脏脉搏数据缓步存在下来的话也没有必要,这就是最简单的大数据,它不是那么容易存到关系型数据库中的,它都是仪表型的机器产生的数据。
孙博凯:用最简单的话来说,大数据技术能够使得你获得洞察,通过不同的数据,围绕我们身边所有的数据得到洞察。当然,我们周边有光、有声,我们也可以考虑到环境数据,围绕我们周边的数据。那么,通过大数据以及大数据技术,能够使我们从这些周边数据中得到价值,并且获得洞察。
孙元浩:什么叫大数据?所谓传统数据不能结果的都可以归结为大数据。我的定义很简单,我们不能用传统技术来处理,但是我们一些软硬件的技术能够让我们有这种潜力、创新的方法来处理的,所以把这些称为大数据。当然,数据到到一定程度,比如地球所有的地理信息,还有更大的数据我们现在不能处理。目前我们关注的是有没有这种潜力,我们目前不能处理的称之为大数据。
姚远:我给大家举一个例子,我们怎么样用很多数据,利用好数据才是关键,使数据为企业家产生竞争力、ROI,对大数据的洞察、理解和感受是整个大数据的挑战。
何英华:要怎么定义大数据是怎么样在数据里面淘宝,我们的数据有很多保障在里面,但是怎么样找寻出来、分析出来,这是一个学问。因为这些数据已经不是从前的可以用关系型数据库、用文字来表达的,它有很多影像、图片、声音等等机器产生出来的代表。所以,怎么样从方方面面中去淘宝,可能现在我们说地震不能预测,是不是不能呢?可能我们在很多数据中,有一些好不相关的数据有一些分析,在地球另外一端的异动,可能会预测出明天地球的某一个地方会有地震,我们希望这样的系统能开发出来。
主持人:通过另外一个角色来问,大家都觉得最终必须是要给企业带来价值的,大家都觉得必须要有这一条才能称之为大数据。那么,你们的产品、你们的技术、你们的方案怎么才能给用户带来价值?能从哪个侧面带来价值?
刘文熙:关于数据的价值,我们把这些数据收集起来,并且进行分析。那么,我们不知道如何来用,不知道它的可用性。因此,非常重要的一点是需要辨认出你需要找寻什么样的数据。在你开始动手寻找之前,可以使我们的数据收集更有针对性。比如说,我们之前提到网络智能分析工具,人们上一个网站会做出点击,固定的用户行为、用户表现,你和我的表现是不一样的,我上网一般是上谷歌搜寻一些东西,我可能有我自己的搜索方式。那么,这种用户行为、用户习惯就可以产生价值,比如说对电子商务、电子营销、电子广告的公司产生价值,他们未来要做一些电子广告的话,他们就会知道我大部分都会找寻什么样的内容,他们就会把我可能感兴趣的广告搜索给我,而不是广撒网似的推送。这样,对用户的影响力就会比以前大得多,这就是关于大用户如何带来价值的例子。
喻思成:我们都知道淘金,可能几克土中能淘来一克金,Oracle公司提供的并不是把山包下来淘金,我只是给你提供平台,把土往里放,掏出金子出来。Oracle会跟很多淘金队合作,他出你需要的金子,但是Oracle并不是仅仅生产淘金平台的公司,Oracle是一个全套的提供各种产品的公司,这个淘金平台是我们产品的一部分,和其他的平台是整体的。
孙博凯:大数据是有生命周期的,关系型数据的管理,非关系型数据的管理,流数据,等等所有数据在一起管理,现在加上了Hadoop,进行丰富,并且与世界其他的数据进行连接,并且提供其他的数据。这样,使得用户可以从中得到价值和洞察力,这就是我们所要做的,建立这样一个平台,我们有一些客户是政府部门、科学家、IT,他们都在用端到端的平台,他们是“淘金者”,无论他们要淘的是哪种金,都可以用到我们的平台。
孙元浩:从英特尔的角度来看,英特尔在大数据时代提供了CPU、高速的存储、高速的网络互联,现在也有Hadoop的发行版,我们在各个行业中跟合作伙伴合作,推出一些抓数据的整个解决方案,包括电信、金融、制造业、公共安全、智能交通、医疗行业,这些是我们和合作伙伴一起应对大数据的挑战,帮助中国的客户从大数据中挖掘价值。
姚远:大家都知道SAS是世界上最知名的数据戏企业,我们有很多沉淀帮助你去理解企业,其实我们面对客户的时候有内部数据和外部数据两个层面,内部数据就是消费记录,我们知道这个人买的最多,是不是对我有价值的。但是微博现在做得很多,每个人会展示自己的态度,通过非结构化,我们找出关键字、找出关键点的一个态度,我可以做一些很针对性的营销,给你带来很多的益处。所以,从销售的层面来看,银行都在做信用卡,因为有了大数据量,我们要有一个法则,我们就可以知道在哪些地方有危险,就可以很快地通知你。所以,利用好大数据产生好最佳的业务价值,这就是我们SAS提出的利用好大数据产生用户的最终价值。
何英华:我觉得数据好象就是天上下到地下的雨水,我在远方把雨水接中用来喝,用来做不同的东西。但是北京市区1500万人口,怎么样把从云生出来的雨水接住、分类、存储到水库,然后再存储到每家每户、净化、消毒,这是一整套的。我们Netapp就是提供一整套方案,从借水、存储、过滤、分水到每家每户,打开水龙头就有水出来。
主持人:CEO、CIO关注大数据的五个问题,大家关心大数据的成本,大数据的风险,大数据的回报,看到大数据的结果。企业在利用大数据做事情的时候,它的风险在什么地方?给CEO、CIO一些什么建议?
何英华:很多CIO谈的时候,在投资方面,Netapp公司提供的就是非常释放性的,从低端到高端有很好的释放性,开始做大数据的时候不是从很大的开始做,可能是从部门,然后到分公司,然后到整个企业,做到全球。我们有整个的一平台,在低端、中端、高端里面我们是统一的管理平台,大数据里面用的功能去重、压缩等等,今天在很小的中型企业中都可以用到,这样可以降低企业的风险。也就是说,在企业发展的过程中和很多友商不一样,很多公司用很便宜的入门的进来以后,公司要增长的时候,从中小期到大企业要经历很痛苦的数据迁移。我们是统一存储的概念,我们是从低端、中端、到高端是统一平台的概念。
姚远:做大数据,第一,不能盲目地跟风,做大数据,每个企业要了解自己,才能做好大数据。第二,可能很多数据质量是一个挑战,你是不是有好的数据质量?第三,我们一定要很精细的目标,大数据能够做什么事情?这一点很重要。第四,企业内部一定要有好的数据科学家,数据科学家不是说我是一个数据专家,我们要以业务的增加和有很好分析方法论的专家。最后,需要一个好的预测分析平台能够利用好大数据,因为最后还是使用我的数据带来业务价值,使它成为真金白银的东西,这才是真正所在。
孙元浩:我认为大数据的风险在两个,首先,数据量增长以后,怎么样把现有的数据应用牵引到大的平台上去?像电信、医疗、交通行业中,解决问题的时候传统的应用,当新的应用得到验证之后再把老的应用迁移过来。比如电信话单记录和上网记录之前是放在关系型数据库里,但是它们马上发现关系型数据库有问题,但是现在才发现Hadoop才能处理这样的问题,所以用Hadoop处理这些数据。那么,这些数据在传统迁移过来的时候有很大的问题,因为它没有为大数据做过优化。所以,我们在电信行业做了崭新的应用,比如崭新的用户上网查询等,这些应用跟之前的应用是不同的,当这些应用得到验证之后,老的应用可以慢慢迁移过来,价值首先需要得到体现。
第二个风险,现在谈大数据风险,谈数据挖掘,它的效果到底多好?事实上是需要得到验证的,确实不应该跟风。在医疗行业,在国外已经开始用大数据做一些疾病的分类,比如说败血症的分析,由专家来分析,到底好不好?这需要一段时间来认证。我们和国内医疗部门在交流的时候,它们最主要的问题是现在分析出来的结果对不对,会不会产生误诊或者更严重的问题?所以,目前的焦点还是怎么样把电子健康档案的病史记录从各个数据源采集,存储放到区医疗卫生中心,把数据共享出来给所有的医生、病人、医院、管理机构,至于挖掘分析产生的效果还需要验证。
孙博凯:我觉得我们一直在谈论大数据,我们有大数据的会议,还有很多的供应商,还有很多的媒体,还有很多的顾客,还有很多的合作伙伴,他们都在谈论大数据,他们也都认为大数据是未来的趋势,但是现在还是有一些危险。但是有的时候我们可能会夸张,夸大它的作用,但是我们的顾客也非常推荐这样的技术,因为在座的也都是行家,它能够帮助我们解决很多问题。很多消费者也已经有这样的数据战略和策略,并且有这样的平台,关键是你如何把大数据集成到这个平台当中,你想要解决什么样的问题,你想要实现什么样新的技术,这是非常重要的。如果我们走错了方向,如果只是纯粹为了实施大数据,可能几个月之后就要谈论出现了什么样的问题。因此,我们现在必须要明确我们的目标是什么,我们可能会取得一些小的成绩,选择一些项目实现这样的技术,从中吸取经验和教训,从中获得我们的经验。因此,我们最终的效果是不会被夸大的。谢谢!
喻思成:还是说挖金矿的例子,本身来说挖矿没有太大的风险。但是它产生的风险是说,如果你一开始没有做细致的规划,挖着挖着,你的生产效率不高,你对自己的数据、矿山结构了解不清楚,到最后你并没有挖出金子来,你的时间成本,到最后滚雪球式的成本越滚越多,最后就破产了。所以,并不是所有找到金矿的人都是赚钱的,很多队伍是亏本的。更多的是这方面的考虑,导致你的风险在这个存在。更进一步的风险是说,一旦等你把非结构化的数据和结构化的数据进行生产的流程运转的时候,这就比较麻烦了。比如说,铁的冶炼,依靠矿山里面金子的辅助,才能把这个铁冶炼出来。也就是说,通过非结构化数据的冶炼,产生实时或者非实时BI的结果,又转过来指导其他生产数据的话,等于你的大数据已经进入你的生产领域了,这就比较麻烦了。如果你不能实时地产生BI分析的结果,就会导致生产停顿。那么,在这个时候如何准备好让结构化数据和非结构化数据在企业级的平台上计划好,而不是大规模地生产在车间里面,同时又让民工队去挖矿山,到最后这两个是要结合在一起的,这个风险就比较大。如果用实时或者半实时的BI工具指导你的话,之前就要采取企业级的计划和企业级的工具和平台。
刘文熙:因为大数据有很多的信息,首先你必须要知道我们到底要实现什么、要挖出什么样的东西。在Splunk公司我们都是非常统一的,在传统的数据库是不需要连接器,我们抛除了所有联通的机械,那就是大数据有很多的信息在里面,我们非常支持这样的观点,因此不能让太多人接触到这样的大数据、分析它们。因此,从这个角度来说,如果只有一个人,或者只有两个人能够接触到大数据的话,并且对它们进行分析,并且向它的上级汇报,根据它们的需求,无论是工程师,无论是更高的CEO,这样的话,才能够发展,才能够正常地进行。公司的CEO只需要知道公司挣了多少钱,有多少盈利。因此,我们首先必须要知道我们想要知道什么样的信息,然后把整个系统和谐化。
主持人:大家最终讨论的是企业需要,企业最终还没有明白企业需要什么,我们从大数据的问题一直讨论到挖金子的问题,对企业来说也是挖金子的问题。我们整个讨论互动的环节就到这里,今天下午的论坛会给大家更多现场互动的环节。谢谢大家!
作者: 王玉圆
来源: IT168
原文标题:探讨:数据驱动型企业与大数据商业模式