以“大掌控 大智汇 大洞察”为主题的微软大数据解决方案媒体沟通会在京召开。 会议上来自微软高管与国内数十家媒体分享了微软在大数据领域的最新研究成果、解决方案,以及对于大数据未来趋势的专业洞察。 来自微软大中华区首席云计算战略官、微软大中华区副总裁兼市场战略部总经理谢恩伟、上海复旦大学附属中山医院信息中心主任阴忆青、中国银行股份有限公司信息中心助理总监袁俊德,福建高速公路有限公司监控中心主任王辉等知名企业CIO、服务商代表共同就大数据热点话题进行了探讨。以下是大数据节选:
阴忆青:我是来自上海复旦大学附属中山医院,我个人是学临床出身的,没有任何的技术背景,所以如果今天说错什么的话,请大家多指正。
谢恩伟:从技术这个领域来说,更多的是怎样能够支撑起广大用户的应用场景。
袁俊德:我来自于中国银行总行信息中心,主要是负责中国银行在全球所有的金融业务系统的运行。我是技术出身,典型的IT男。非常高兴能够参加这个活动。
王辉:非常高兴参加这个活动,我叫王辉,来自福建高速公路,我们的总指挥部和公司是两块牌子、一套人马。我的工作是负责福建省高速公路机电信息化建设和运营工作,我学的专业是通讯工程。
谢恩伟:我们刚刚过完十一黄金周,我是躲到上海,一件事情都没做,就在我爸妈家吃、休息、跟朋友见面。后来看到很多微博、微信上说到了交通堵塞等等方面的一些问题,我这里有两个数据很有代表性,1.76亿辆次的高速出口小客车流量在十一黄金周,比去年增长10.2%。我想先听听王主任的一些想法,大数据这个方面在交通领域有什么最新的应用和进展?
王辉:非常高兴能给大家介绍一下。我简单介绍一下福建高速,我用三个数据来介绍福建高速公路,投资总额2600亿,已经完成了,到年底可能接近3000亿。第二个数据,通车里程现在是3600,到年底是通车4000公里的高速公路。第三个数据是流量数据,福建省高速公里的里程和规模在全国是中流,基本上是排在中间的位置,今年10月1日,我很不幸,每个节假日都不能休息,要在指挥中心值班,那天我们突破了200万的车流量。上个星期我还在交通部活动,跟几个省市一起开会研究节假日情况的时候,最高的应该是广东、江苏、北京这一带,其中江苏省已经突破一天400万辆。
谢恩伟:在交通方面,特别是在数据这个领域当中,现在已有的应用有什么样的进展?
王辉:我正好是交通运输部路网标准组的成员,我一直在参与国家在公路网管理的这项工作。从国家层面来讲,去年国家在交通部下面成立了一个路网监测与运行处置中心,这个是过去没有过的,因为过去交通部管建设,不管运营,现在他已经管运营了,跟铁路、民航一样,开始全面运营。省里面也同样,在省交通运输厅,每个省等成立相应的机构,因为我们有三大重要的工作:第一,路网的日常管理,包括收费,收费也是我们很重要的工作,我们每一年的收费额大概是110亿,每年都以百分之十几在增长;第二,目前还有一项重要的工作,就是应急处置,因为高速公路10万公里已经通车了,现在社会关于通行安全这块的要求非常高,所以我们有应急处置系统,不管是国道、城市道路,当有情况的时候,必须快速的进行处置、救援,这里面有生命的救援,也有道路畅通的救援;第三是服务,国家这个层面上,包括我们省里面,已经把为领导服务转为为社会服务,因为老百姓要出行,他必须要快捷、便利、安全,这是他们的基本要求,我们在这块做得还是很不够的。刚才主持人说到,我们采取了什么措施,应该这么说,在道路管理上,你们每次出行都有一个强大的后勤队伍在为你们服务,就是基本的服务和救援,当然我们做得还不是很够。
说到大数据,不管是高速公路还是普通公路沿线,开始逐步为满足高速公路或普通公路的运行,在投入大量的资金,来做一些传感器,来收集道路的状态,收集出行的信息。这些信息干什么?这就是大数据的来源,最后经过一定的处理,来提供给我们的人员。目前的手段也还不是很好,刚才一个专家在说,他是用出租车GPS,GPS是很重要的一个数据,我们也在用,但是它有限,只是装了GPS的运营车辆才有,但是它占的比例还不到5%,很小。更重要的是我们需要了解所有车的运行情况,否则我们不进行日常的控制,应急突发事件的救援就无从谈起。全国都是类似的情况,城市道路可以建得好一点。高速公路面积很大,要想控制得很好,依然是一个挑战。
谢恩伟:从福建高速的角度来说,他收集的数据是非常庞大的,也有不同类型的数据,有的数据是拍照片的影像数据,有些数据是从GPS得到的地理位置数据。在这些数据当中,为将来的交通管理也会带来很大的益处。从2012年开始,微软已经跟福建高速,特别是在SQL 2012年上面已经有了进一步的合作,我们也非常期待在这个方面能做更多的动作,从分析、演示、视觉化、决策等方面,都能够帮助福建高速有更多的成绩。
谈完交通,要谈一下另外一个跟国计民生非常有关系的行业,那就是医疗行业。今天碰到一个上海老乡,我们在台下还在聊上海话。阴主任,能不能跟我们说一下,大数据在中山医院,您那边有什么样的应用、设想和实践。
阴忆青:不管是银行还是高速公路,我们IT起步相对晚一些,上世纪90年代才刚刚起步。最近几年真的是飞速发展,这是有赖于国家政策的推动,取得了非常好的成绩。
从具体业务来看,我们既有传统的存在Excel的数据,当然也不能用Excel来判断是不是结构化,我看到现在有人用Excel来画图,有人用它来做装修计划,所以真的是无所不能。在我们院里面是有结构化的数据,像大家门诊的挂号数据,还有我们的医嘱,这些数据现在越来越多的被放到信息系统里面,刚开始的时候,我们都是从收费开始,后来就关系到业务,再后来关系到一些临床的数据,也开始出现在这里面了。还有一些我们认为非结构化的数据,或者叫影像的数据,这个在体积上是比较大的,我们原来有单幅的像胸片的图像,后来有了CT和磁共振的图像,这些数据越来越大。最近我们又尝试去扫描一张病理切片的图像,平均一张病理切片,如果我们去扫描的话,一张就是1G。但是这1G的数据,你是很难去做快速分析的。就像刚刚大家听到总裁说的,海水很多,但是并不是你舀起一口就能喝,你要做很多模式的判断,然后对模式进行分析。
中山医院在上海也是一家中等规模的医院,我们一年大概平均有300万左右的门急诊人次,有8万左右的出院人次,每年接近6万次的手术数,这个量听上去好像比较多,但是在上海可能有30多家像我们这样大小的医院。在全国而言,我们只能算是一个中等偏小规模的医院。现在全国最大规模的医院在河南,因为河南是人口大省,单体医院超过7000张床位。所以从医院的数据来说,业务量大,它的数据量必然也大,还有就是不是相同的医院,我们会把它联系起来,上海申康推进了医联的项目,在上海38家三级甲等医院,也就是目前中国级别最高的医院,我们都连接在一起,38家医院里面,病人的数据可以互相沟通,病人到另外一家去看的时候,他可以看到前一家医院上传的化验报告,你用了哪些药,甚至你检查的影像数据。所以从医联系统来说,累计了非常大量的数据,这些都能为我们以后的分析提供非常好的基础。所以医疗在现阶段是一个打基础的阶段,需要后续持续的投入来做一些分析。
谢恩伟:这对我来说真的是一个福音。我在2006年的时候,正好那年春节我在海外,回来之后我爸告诉我,我外婆住院了,他跟我解释了一下整个住院的过程,从她挂号,从急诊到复诊,都是有很欠缺的数据的连接。比如她在急诊上做了一个验血的报告,在复诊的时候不能再采用,还要重新再做一次,她以前拍的照,在不同的部门要重新再做一次,这样是一种信息的断层,在七年以前看得非常清楚。这对我来说是一个非常重要的改进,在将来这样一个时间点,能够把这些数据串在一起,怎样能够挖掘更深的价值。
阴忆青:现在这个问题已经基本上解决了,临床医生可以看到历次的就诊数据。临床医生会根据专业的标准去判断这些数据是不是仍然有价值。举例来讲,可能那时候的验血报告我们认为时过境迁,病人的状态改变了,我们需要重新再去做,但是至少我们能够看到,然后能够判断。
谢恩伟:我也非常期待能够通过微软的技术,在中山医院当中有更多的突破。刚刚讲了交通和民生,让我们的技术男谈一下,特别是在银行这个领域当中,实际上我们跟中国银行合作蛮长了,我也想听一下中国银行现在大数据应用的状态。
袁俊德:如果说应用计算机,从国内来看最早的是国防行业,下一个可能就是金融行业。刚才谢总讲我们跟微软也是合作很长的时间。
中国银行作为国内国际化程度最高的一家银行,从一开始我们跟微软的合作就是一直是正版,我们从来没有用过盗版。所以作为微软相关产品的应用,我们也是有一个逐步的过程。银行这个行业IT的应用可以算是企业级的应用,微软最早从我们这儿的应用是从办公做起来的,就像Office相关的这种软件。随着微软在企业应用方面的一些发展,我们在核心银行的领域,特别是在前端领域,有了非常大的应用。包括我们现在核心银行系统所有前置的系统,目前采用的都是微软的基础环境在做。后期我们在营销分析这些方面,也是采用了微软的解决方案,比如我们全球的统一客户经理的平台,现在也是在做。
从应用的范围上来看,从一开始的办公,到我们的企业级应用,到刚才讲的全球客户经理平台,跟我们的大数据应用有很密切的关系。作为银行来讲,因为银行的数据基本上还是以结构化数据为主,所以我理解,大数据的概念和数据仓库的概念还是不太一样的,因为它更体现在数据的多元化,以及如何高速的对这些多元化的数据进行检索,以及如何把检索出来的数据通过分析加以使用,我理解这是跟大数据相关的一些内容。
我们现在的全球客户经理平台,目前这个阶段也是在一个侧重于应用的阶段,我们主要还是依靠目前银行一些结构化的数据,对我们的客户进行一些定向的营销,对他的业务、消费习惯进行一些分析。但是随着现在竞争的加剧,特别是从移动互联以及现在第三方支付等等各个行业,其实金融这个行业竞争越来越激烈,所以我们从各个方面来讲,也是迫切的想尽量多的去掌握客户的数据。目前我们还有一些在自身方面做的不足的地方,比如我们的理财系统,比如我们卡的系统,或者是我们汇款的这些系统,有些数据都是比较分散的。从应用上来讲,我们在目前的这个阶段,正在把这些内部的系统整合起来,把它关联起来,来做更好的应用。
我们现在也在通过互联网的金融,以及我们现在所建设的网络银行等等这些方面,把这些客户的数据搜集得越来越多,当然形式也会越来越多,数据的结构也会越来越复杂,所以这些东西都需要大数据去解决这方面的问题。
谢恩伟:袁总刚刚谈得也是蛮对的,在金融行业现在有更多的竞争,特别是当移动互联网出现之后。除了自己已有的一系列的海量数据之外,就像我刚刚展示的数字营销,实际上也会有一定程度的贯通,不光是现在已有的数据,怎样能够把外部的数据更好的整合在一起,从客户的挖掘等等方面再做到一个新的高度。现在还是有很多的方式,可以有更快的提升。
我刚刚在跟各位聊的时候,也注意到另外一点,各位手里都是有非常重要的资产,那就是数据,我们有交通的数据,我们有银行的数据,我们有医疗方面的数据。这个概念微软也已经在提,我们在Windows Azure这个平台,前段时间退出一个概念叫做数据市场,当有一些数据不是太敏感的话,可以把它作为一个资产,能够又产生经济价值的时候,怎样在云平台之上把这些资产放出来,能够让更多的应用开发者或者合作伙伴在这些资产上做到更新一代的创新,也是一个很好的盈利点。我们在几年前也做过这样的事,微软在做超算的时候,比如跟金融行业有关,我们把所有在美国的银行,10年8000家银行的数据,现在都已经放在网上,就是以前的一些经济趋势的数据。通过这些数据的挖掘,也可以做更进一步的分析,或者应用。各位手里有一个金矿,不光是怎样能够帮助各位在自己的行业当中能够做到很好的发展。
刚刚已经谈到现在已有的一些状况,如果有一件事或者两件事大家预期非常希望做的,这个会是什么。从大数据的层面上,将来你非常希望通过大数据完成的一个场景是什么,能不能跟大家分享一下。
王辉:刚才说到交通,交通行业这几年一直是社会的热点,不管是节假日出行,还是经常出现一些大的事故,重大伤亡,都是热点。我们在管理上感觉任务是越来越重,社会对我们的要求是越来越高,另外就是一些应急突发事件,我们的压力也是越来越大。说到压力,我们每一年都有人因为施救不力,来追究我们的责任,我们这块压力大就是需求很大,但是确实现在还没有办法达到这个要求,这是实事求是的说。因为交通行业的信息化也是刚起步,跟刚才医院说的情况是一样的。
像我们高速公路,要做成大数据,首先要做一件事,就是把所有车的数据汇集在一个点上,才有大数据的概念,如果分散在各个地市,就没有大数据的概念了,这很难,要投入大量的资金和做大量的工作。这跟医院不一样,我们要做很庞大的通讯网络。
我们涉及的领域非常多,刚才专家介绍了出租车,北京还有地铁,还有航空、铁路,还有海上,这么多数据要整合在一起,然后迅速做出一些可以给领导或者给指挥人员、调度人员提供依据的,还是很不容易的。我们跟微软公司合作很长时间了,我们也投入了大量的资金,我们的资金比你们两家会大一点。我建一个数据中心,光土建就花了4000万。但是没有办法,因为将近3000亿的资产,肯定要几十亿来支撑,否则就支撑不住,这是客观的情况。
刚才主持人讲了展望,我们的想法是要迅速的把数据搜集上来,基础设施要大量建设,传感器要大量建设。再一个很重要的就是,微软刚才在介绍大数据,我听了也很受启发,如何把这个大数据经过高效率的检索、处理、存储,最后形成我们决策的重要依据,这是我们目前面临的最大的一个问题,所以我们愿意跟微软合作,今年上半年我们还有一个协议。这块很有挑战性,不光是我们,任何一个高速公路都有这个压力,压力都很大,平常很忙,节假日还不能休息,因为离不开。我们有几次事故,省长都跑到我们的指挥中心,因为堵得一塌糊涂。这两年好一点了,节假日免费了,免费反而畅通了,因为不收钱过去得就快了,但是又有新的问题,就是路上事故多了。我们的想法是,这是一个起点,我们希望微软的大数据能给我们智能交通带来智慧的翅膀。谢谢。
袁俊德:金融这个行业从目前来看,基本上所有新的IT方面的概念,首先就要在我们这儿来落地。在大数据这块,从我们这方面来考虑,主要有几个方面。
第一是用于营销。目前竞争太激烈,所以营销这方面需要掌握客户各个方面的信息,能够有精准的营销。
第二是风险控制。营销出去,还得要把风险控制好,这里面无论是对公的、对私的,包括目前各个方面来看,无论是国际的、国内的,各个方面针对于风险的管理是非常高的。所以我们每年用于风险控制的投资也是非常大的,所以在这块也是想借助于大数据的概念,去做相应的工作。这两样是并行的。而且我们现在也逐步开展这方面的工作。
第三是我们的绩效,就是整个银行各个部门、各个人的绩效。这项工作对于整体银行业的运营是非常关键的一个内容。
再说具体一点,比如我们信息中心每天也会产生大量的运维数据,我们的服务器会产生相关的日志,我们的应用会产生海量的日志信息,包括我们的交换机、网络、存储等等。这些信息对于我们的日常运维非常重要,在银行数据中心的运维过程中,实际上是精细化分工的,我们有上千人,有专门负责服务器的,有专门负责操作系统的,有专门负责网络的,有专门负责应用的,分工非常细。但是我们在排查一项故障的时候,你从网点上看,说这个业务做不了了,但是它会牵连到这条端到端的链路上的各个环节,它的分析就变得非常重要。在这个过程中,每一种设备、每一个系统产生出来的信息,它的格式是各不相同的,所以我们这项工作就变得非常棘手。我们现在也在考虑做相关的工作。作为大数据这块来讲,无论是从我们业务发展层面,还是IT自身的方面来讲,都是下一步非常重要的一项工作。
谢恩伟:在这个环节当中也可以看到,很多跨公司的需求都是蛮一致的,怎样通过数字营销掌握更多的客源,怎样通过内部效率来掌控业绩的产出,以及内部成本的降低,来提高我们的营业额。很多应用场景都是跨界的,我们希望跟中国银行能继续合作,能做得更多。中山医院阴主任这边有没有一些新的想法。
阴忆青:我想先举一些国外的例子,因为国外在这方面的起步比较早。我们曾经看到美国的一个医疗集团,某一种药物上市以后,他就注意到,凡是使用这个药物的病人,可能有更多的机会发现肾功能异常,他们通过这个机会,在集团内部把这个药停用,直到停用两年以后,美国食品药品局发现这个药可能导致肾功能异常。因为这个药在临床前样本量不是很大的情况下是发现不了的,是非常大量的病人使用的情况下,才能发现这个异常。我们觉得这是一个非常好的例子。
谢恩伟:这跟雅安的状态很相似,你看到8年之后,才能看到一些规律。
阴忆青:反过来我也觉得,可能要给大数据泼一些冷水。为什么要泼冷水呢?就是它的驱动力在哪里。我们注意到很多反复举例的故事,往往是那家IT公司有非常大规模的基础架构,意味着它有足够的处理能力,然后它有尖端的人才,不光是IT专家,很多时候背后是数学家在支撑着这样的分析、建模,另外它自己本身拥有海量的数据,像谷歌、Twitter,它都是拥有海量的数据,所以他们能去做这些事情。有那么几个成功典型的范例能够给大家看,激起我们非常美好的愿景,说我们可以往那边发展。但是真正落实到具体哪家医院做这件事情是非常吃力的,我可能没有足够的投入去做这件事情。另外一个方面,刚才说到安全管制,上海申康已经累积了这么多患者数据,有人就说,申康为什么不做这个事情,上次我看到申康的高主任就提,不是我们不知道这些数据可以利用,而且利用这些数据,我们要遵从很多方面的法律和法规,因为很多时候是牵扯到患者的隐私,我们能不能这样用,我们是不是事先征得了患者的同意。另外,当我们使用跨院数据的时候,每个医院都有各自不同的看法,我们是不是能使用。在实际操作层面,故事远远没有那么美好,甚至包括我们跟中国银行也有一些合作,我们希望患者能在医院里面直接使用银行卡,我们彼此有通讯,彼此有交流用户的信息,这些用户对银行来说就是一个银行卡用户,对我们而言就是一个患者。所以当时我们交换的时候,严格的界定,医疗的数据不能到银行那边,金融的数据不能到我们这边。银行给到我们的是说,交易成功还是不成功,我们不会去查这个人有多少存款,银行这边也不会查询这个病人在医院看了什么病、挂了什么科,这些也是不恰当的。
谢恩伟:您总结得非常好,一个地方是怎么把数据分析的门槛拉低,把它平民化,跟我们今天讲的怎样通过Excel,怎样通过一些简单的手段,让大数据视觉化,微软也是抱着这样一个精神,怎样用现在已有的工具,让数据更加视觉化。另外是整个IT基础设施层面的操作,像高速、中国银行和中山医院,都是有蛮深的IT水平,如果要落到中小企业这边去的话,挑战会更多一些。这块微软也在看,比如像Windows Azure公有云,怎样能够帮助一些企业马上上手。又会连接到最后一个话题,就是对于整个数据管理监控的程度,这实际上是一个非常大的话题,不光是跨企业,还有跨国界的一些数据管理的Policy。
今天非常感谢三位非常重要的客户,能够在这个舞台上跟我一起分享大家对大数据的展望,跟微软合作的愿景,也非常期待能够继续在微软的技术平台上帮助各位在应用场景上达到一个新的高度,真正把大数据落地、平民化,把数据管理达到极致。
原文发布时间为:2013-11-02
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号