数据中台解决方案包含:数据中台建设方法论、相关技术体系和工具、数据体系等几大部分构成,前文介绍了数据建设方法论中的数据仓库建设和技术选型,本文将介绍一个典型的数据架构演变的实例。
最近十年,随着互联网、物联网、人工智能的新发展,大数据技术开始兴起,为了让政府机构和企业能够更加灵活高效地使用自己的数据,将数据分析和挖掘出来的结果应用在企业的决策、营销、管理等各个方面,让数据产生更多的价值,其实是需要一整套体系作支撑的,其中数据架构就是支撑的重要一环
同时因为Google等互联网公司的成果,Apache基金会的努力研发和推广,目前的共识是,技术架构的搭建以借助众多开源技术组件为主流。
下面以某地产公司为例,该地产公司的核心业务是房地产销售,随着业务的扩大,决策层有了业务和财务指标查看的需求,部分高层出现了数据分析的需求
一. 第一阶段(2004年~2010年)
2010年前主要为高层提供核心指标和报表查看,对结果的并发性能需求较低,基本没有复杂的多维分析需求,仅需要把结果集后台计算出来后放进MySQL即可,指标和报表系统做展示。
这种架构的优点是技术栈迁移顺滑,维护简单,成本较低。缺点就是性能存在瓶颈,扩展性较差。
二. 第二阶段(2012年~2014年)
业务发展迅速,高层需要查看的指标不断增加,是2010年的10倍以上,并且有了专门的数据分析团队,经常频繁的做数据分析,某些数据达到了亿级别,同时对可用性也有了更高的要求。面对性能和可用性的新需求,数据架构整体而言需要做升级。
这种架构的优点是相比第一种情况,性能大幅提升,面向不同场景选择Oracle或者Greenplum方案,缺点就是分布式扩展能力仍然有限,复杂处理需求无法满足。
三. 第三阶段(2014年~2016年)
公司除了房地产销售业务,也介入了物业和租赁业务,业务产生的数据量增加了,而且数据形态越来越复杂,原有的架构成本越来越高,性能也逐渐满足不了需求,高层决定采用逐步成熟的大数据技术构建整套数据架构,但是要求逐步替换,不能影响当前业务。
这种架构的优点是计算性能大幅提升,支持平滑扩展,复杂数据处理能力大幅提升,缺点就是大数据系统维护成本较高。
四. 第四阶段(2016年~)
房地产、物业和租赁业务规模继续发展,大数据技术在前期的使用中被证明能提升性能和降低成本,因此高层决定全面采纳基于大数据技术的架构,同时大幅提升数据分析师更精细化数据分析的能力,更好的反哺业务。
这种架构的优点是面向大规模数据处理的性能大幅提升,复杂数据处理能力大幅提升,数据不需要复制,缺点就是大数据系统维护成本较高。