2.5 为真正发挥大数据威力做好储备
如今,“大数据”成为近年来在互联网、IT业界最为炙手可热的名词,很多人甚至将企业互联网转型的期望完全寄托到了大数据上,这也就是为什么越来越多的企业纷纷上马大数据项目。我个人坚信,大数据接下来会是展现企业核心竞争力并挖掘新商业模式,从而改变世界的强大技术推动器。但我发现很多大数据项目在实施落地时因为各种问题和原因,从结果来看项目带来的成效并没有达到企业实施大数据项目的预期,其中有以下两个问题尤为凸显:
数据分布广、格式不统一、不标准。也还得归咎于“烟囱式”系统建设方式,使得相关业务领域的数据分布在不同的系统中,比如企业的会员信息可能分别存放在天猫、微信公众号、自建电商等不同的平台中,而且系统在各自建设时都基于各自开发团队对业务的理解建设相关的数据模型,造成相关业务的数据模型和标准不统一,这就为大数据平台项目初期数据的抽取和同步带来很多的复杂工作:数据层访问的打通、数据权限的控制、数据格式的转换、数据清洗、数据同步等。而这一系列的工作必然也对项目的整体实施带来了不小的风险。
缺少能基于数据有业务建模能力的专家。不管使用何种平台构建大数据平台,这些大数据平台在平台计算能力、算法种类的数量上存在或多或少的差异,但真正要发挥出这些大数据平台威力的重点还是要围绕着业务场景,也就是要有人知道怎么利用大数据平台发挥出真正的业务价值,这是很多大数据平台难于落地或真正让企业感受到大数据带来价值的最大障碍。理论上,企业的业务部门应该有这样的业务专家能提供这样的业务需求,但实际情况是,能基于对业务的理解提出对大数据平台需求的专家在企业中凤毛麟角,就算对业务有足够精湛的理解,但对大数据的能力和算法又很难完全弄清楚;而大数据平台的专家又往往只是对自身的大数据平台功能、算法和使用了如指掌,但对于企业的业务又没有深入的了解,更谈不上对业务进行分析预测。从而最终导致的结果就是企业花费了巨资搭建的大数据平台,但苦于没有合适的应用,而让大数据平台空有一身武艺,而无用武之地。
以上两大原因造成了大多数大数据平台项目所展现的业务价值不尽如人意,如何很好地解决以上两个问题?我认为共享服务体系是解决这两大问题的不二法门。
回顾前面章节中的内容,如果我们相关业务领域(如用户、商品、交易等业务)在业务和数据层做了很好的融合,这样既能将业务的数据在系统运行中就进行了很好的规整和沉淀,并且每一个服务中心提供的数据均是质量非常高的业务数据。这样在进行大数据项目实施时为了获取完整的、有质量的业务数据所做的一系列工作均可以在很大程度上避免和简化。
对于“缺少能基于数据有业务建模能力的专家”的问题,我认为很难寄希望于业务部门能培养出这样的专家,这样的人所需要具备的专业素养要求非常高,如今兴起的叫“数据科学家”正是这类专家的代名词,一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。看看这样的素质要求,这类人才对于任何一个企业来说都是难寻的。如何走出这类人才缺乏的困境?我认为企业应该自我培养,靠从外部找寻此类人才可称得上是可遇可不求。而共享服务体系能很好地帮助企业信息部门培育出懂业务的专家,这些人员自身在拥有不错的技术功底的同时,逐步提升业务上的能力,具备这样能力模型的人员才有希望成为能发挥大数据平台价值的“数据科学家”。
从阿里巴巴的阿里指数(如图2-5所示,早期叫“淘宝指数”,是典型的大数据应用)的发展就能看出,共享服务体系对于大数据项目建设的贡献和支持。在2009年共享业务事业部成立后,将阿里巴巴集团几大电商平台的用户、商品、交易等业务沉淀为了几大服务中心,随着集团对电商平台中各业务指标越来越关注,阿里巴巴开始打造自己的大数据平台,基于现有的共享业务事业部各服务中心的数据,很快就构建了早期的淘宝指数平台,可以从各个维度(用户、区域、行业等)展现出各种业务指数,为集团和商家的业务决策和营销策略提供了最有力的支持。
图2-5 淘宝指数
对于那些计划实施大数据项目的企业,如果还没有想清楚如何通过大数据平台的建设给企业带来真正的业务价值,可以先从共享服务体系的打造入手,对企业自身的业务在阵型上做一次优化和调整,为将来大数据平台真正威力的展现准备好高质量、统一的业务数据,培养出兼具技术功底和精通业务的复合型人才。