数据中台、相信这四个字大家一定不陌生。因为在2019年、数据中台可谓是最火的概念之一,很多大公司都在布局自己的数据中台。
那么数据中台到底是什么?它和我们熟知的数据平台有啥区别?它为什么会这么火、能给企业带来什么价值呢?数据中台整体架构和全景图又是什么呢?
笔者有幸参与了公司数据中台从0到N的建设,计划从概念到落地,把中台那些事跟您说透,与您一起分享学习。笔者公众号:【胖滚猪学编程】
第一问:数据中台是什么
先不说那些官方的抽象的概念了,我想用我自己的大白话去说数据中台的概念。
那就是如果把前台比作赚钱的。后台比作支持的。那么中台呢就是支持加速赚钱的。
这个比喻我觉得还是很形象的,中台呢它实质就是前台和后台的一个桥梁,并且它能在这当中起到很好的加速效果。这里的加速,可以是效率上的提高,可以是协作上的共赢。
举个例子,比如前台业务人员日常要分析广告投放、在哪个平台投放效益最好呢?抖音还是头条呢?这直接涉及到公司的money了。
前台人员要分析这个肯定要有数据吧、就会向后台人员要数据:我需要哪些表你要帮我同步过来数仓里,同步好了你要授权给我,然后你再去配置定时报表任务、配置好了你要再做一个前端的展示页面。这还没完,数据有问题了还得跟你逼逼叨叨!
这个流程下来,前台人员需要向后台人员沟通100句。有了数据中台、一句话都不用说了。上面这些操作,前台人员都可以自行完成。
所以说数据中台给我们业务效率带来了巨大的提升。
那数据中台有没有缺点呢?
我觉得也是有的,本来后台那些单身小哥哥可以蹭这个机会去跟前台妹子打些交道、说不定姻缘就来了,毕竟前台妹子多,结果被这数据中台一搞,一句话都说不上了。这确实是数据中台的一个缺点。
现在大家应该有个初步的印象了,那么我再用官方抽象的语句做一个总结:数据中台是企业级能力复用平台!企业级大数据通过系统化的方式实现统一共享的数据组织。其中共享包括数据、信息、技术、业务的共享等。它以服务化的方式赋能前台数据应用,稳定可靠、高效的支持上层业务的快速创新,为业务快速赋能。
第二问:数据中台和数据平台的区别
因为我们一直以来都是听数据平台这个词听得比较多,所以第二问我们还是要来说一下它们之间的差别。
数据平台你可以把它看成是数据集,那么数据中台呢他就是数据集API,那么它们之间就差在API这三个字母上,API我想应该不需要过多解释呢,大家都知道,比如学JAVA的时候有了JAVA API你才知道怎么使用,那么数据中台相当于在数据平台的基础上告诉你这些数据怎么使用。
另外,数据中台是偏向于业务的,而数据平台是偏技术的
但是、数据中台和数据平台也有千丝万缕的联系。数据中台需要依赖大数据平台,大数据平台完成了数据研发的全流程覆盖,而数据中台增加了数据治理和数据服务化的内容。总的来说,数据中台吸收了传统数据仓库、数据湖、大数据平台的优势,同时又解决了数据共享的难题,通过数据应用,实现数据价值的落地。
第三问:数据中台有哪些价值
数据中台的价值,我想用三个关键词来概括:效率、协作、质量
- 效率:比如数据研发的效率、发现数据的效率。为什么我们每开发一个报表都要改代码呢?为什么数据有问题的问题的时候,我们要找很久才能发现是某某上游的问题呢。
- 协作:很多应用开发,其实不同的项目组需求大致相同。还是用开发报表来举例,不同业务线项目组开发报表都一个套路,但因为是别的项目组维护的,所以就是得分别开发一遍。就不能协作共赢?
- 质量:比如数据的一致性、准确性、及时性以及完整性,有没有一个通用的平台来检验这些数据呢。
上面说的还是有一点儿抽象,其实要具体回答这个问题,你首先得大概知道数据中台有哪些功能哪些模块。比如数据地图、元数据管理、数据血缘、数据处理等等都属于数据中台。每个模块都有它的功能,所以它的作用并不是一言两语可以说得清,这里笔者再举一些真实的例子来对比一下:
例一:没有数据中台之前,业务人员根本就不知道HIVE数仓有哪些表,不知道这些表的具体信息(列信息、索引信息、分区信息、责任人信息)。他要出一张报表还要来问你:"hello 帮我看一下HIVE有没有同步这张表吧?hello 帮我看一下这张表是不是分区表吧?"。这个表有问题了,他又要来问你"hello 这张表负责人是谁啊?" 有了数据中台之后,完全不需要管了。(这个是元数据管理给我们带来的便捷)
例二:没有数据中台之前,我们根本就不清楚表的来源和链路,尤其是一些复杂报表的结果表,来源非常复杂可能涉及到多个系统,涉及十几个源表。等到上游业务表要做变更、都不知道会影响哪些报表,线上已经运行上千个报表了啊!要去揪出这些来实在是麻烦!有了数据中台之后,10秒钟就能解决这个问题。(这个是数据血缘给我们带来的便捷)
第四问:数据中台架构
我们说数据中台是服务于公司业务的,因此必须要从自己的业务角度去进行一个全局的规划和架构。不过你依旧可以参考一下典型的架构图:
笔者认为可以分为几大部分:
- 数据采集汇聚(数据库,日志,前端埋点,爬虫系统等)
- 数据处理和开发(离线计算、实时流计算等)
- 数据治理(元数据管理、数据血缘、数据质量、数据安全等)
- 数据服务(智能报表、标签系统、推荐系统、大屏等)
其中、数据采集和数据处理开发,你也可以理解为是数据平台的东西。由于篇幅问题,不对每一个模块作详细说明。笔者将在个人公众号【胖滚猪学编程】详细分享各个模块的概念、功能、以及生产落地方案!
第五问:我们该做数据中台吗?
首先一句话:千万不要跟风。中台不是你想做想做就能做。
因为要做起一个真正意义上的数据中台,一定是站在公司的层面去看待,而不是某个业务部门自己玩玩过家家。因此需要非常大的投入,人力、物力的投入。而这些系统是否能够匹配中台建设的需求,还需要持续打磨。另外必须对公司的整体业务滚瓜烂熟,才能有这种全局的视野去建设中台。
那什么情况下我们可以考虑建设中台呢?
- 企业是否有大量的数据应用场景?数据中台本身并不能直接产生业务价值,数据中台的本质是支撑快速地孵化数据应用。所以当你的企业有较多数据应用的场景时(一般有3个以上就可以考虑)
- 企业存在较多的业务数据的孤岛,需要整合各个业务系统的数据,进行关联的分析,此时,你需要构建一个数据中台。比如在我们做电商的初期,仓储、供应链、市场运营都是独立的数据仓库,当时数据分析的时候,往往跨了很多数据系统,为了消除这些数据孤岛,就必须要构建一个数据中台。
- 当你的团队正在面临效率、质量和成本的苦恼时,面对大量的开发,却不知道如何提高效能,数据经常出问题而束手无策,老板还要求你控制数据的成本,这个时候,数据中台可以帮助你。
- 当你所在的企业面临经营困难,需要通过数据实现精益运营,提高企业的运营效率的时候,你需要构建一个数据中台,同时结合可视化的Bl数据产品,实现数据从应用到中台的完整构建。
- 企业规模也是必须要考虑的一个因素,数据中台因为投入大,收益偏长线,所以更适合业务相对稳定的大公司,并不适合初创型的小公司。
第六问:数据中台的参考资料
不得不承认一点,网上关于数据中台的资料太少了,笔者去年中旬从0开始建设数据中台的时候,花了大量时间搜集资料。现在也愿意与大家分享一下我收集到的资料。
书籍推荐:数据中台-让数据用起来。
博文推荐:
什么是中台,什么不是中台。所有的中台都是业务中台
到底啥是平台,到底啥是中台?
在构建数据中台之前,你需要知道的几个趋势
火热的数据中台对企业的价值是什么?
你真地需要一个中台吗?
阿里的中台战略其实是个伪命题
从平台到中台 | Elasticsearch 在蚂蚁金服的实践经验
七问七答,亲历者讲阿里中台落地的实践我的一年中台实战录
滴滴出行构建业务中台应对软件复杂度的具体对策与实践
10张图解密阿里数据中台
落地推荐
可以参考阿里的DataWorks产品,上面有很多关于数据中台的原型图可以作为参考。
DataWorks
笔者也将在公众号【胖滚猪学编程】上分享自己搭建数据中台的亲身经历,不多说无用概念,直接把生产落地方案分享给你!
最后总结:以用户为中心,以愿景为指引,从战略入手,用科学有效的方法,步步为营沉淀企业级能力,付以必要的组织与系统架构调整,方得中台。