2.2 数仓升级的四个原则
要达成传统数据仓库升级成功的三个目标,我们需要的不仅仅是一套技术交付方案,更 需要一套能够指引行动的“原则”。正如雷 - 达里奥在《原则》一书中提到:原则犹如 指引行动的“灯塔”,它连接着我们的目标与行动。解决不确定性靠敏捷、解决复杂性 靠原则,越是复杂的系统越需要一套原则来保证。
过去以国外厂商为主导的数据仓库平台很好地解决了企业从零到一的取数、用数问题。 经过多年的长期迭代建设和大量投入,在现有数据仓库平台体系内积累了许多符合企业自身业务需求的经验和实践,比如在数据架构上采用分层设计思想初步实现了将数据分 类处理、建设了大量主题数据模型、建设了统一的数据交换平台,这些都是企业多年经 营的心血和结晶,是最重要的数据资产之一,数据仓库平台的升级要尽可能考虑复用企 业现有投入,把企业花了大力气积累的数据资产平滑过渡到新的数据仓库平台,避免推 倒重来的重复建设开销。
如下图所示,我们将高效实现数仓升级所需要的原则总结为“四边形”原则:
该模型可细化解读为如下四个方面:
1)原关联上下游渠道不受影响:升级数据仓库涉及到对现网上下游多种类型系统的数 据集成工作,要确保升级数仓前后业务渠道和系统功能不变、数据交换平台功能不变、 批量调度平台功能不变。
2)原数仓平台数据体系不变:原数仓平台通过分层设计的数据治理模型不变,比如 ODS、数据缓冲层、基础数据层、公共汇总层、数据集市等能在新数仓平台复用。
3)原数仓平台兼容性:具有对原有数据仓库平台一定功能上的的兼容能力,确保对原 数据仓库平台有一定的使用习惯和功能上的兼容能力。
4)采用云原生技术进行优化改造:考虑技术前瞻性、时代必然性,采用云原生组件对 传统数仓平台进行优化改造,并且改造后的业务功能不受影响。
基于以上四个原则,采用云原生组件进行传统数据仓库优化升级可以让企业在云计算时 代充分享受云计算的红利。云计算的本质是随着虚拟化技术的突破而带来了用虚拟化技 术高效使用来池化底层的硬件资源,最重要的一点是利用好云原生数据仓库的存储和计 算资源服务化特性,让用户根据自身的需求灵活选择资源规格、并根据数据量增长需求 随时变更资源配置,还能做到对上层应用无感知,达到投入资源收益最大化;此外,分 布式并行计算、透明可扩展、高可用、同城容灾等都是传统企业长期以来功能刚需,是 云上数据仓库在云上与生俱来的能力,可以让企业实现开箱即用的良好体验;因此,企 业在升级传统数仓时选型一套经过大规模验证的、用于支撑新数据仓库平台生产运行的 IaaS 和 PaaS 平台,可以让升级工作事半功倍。