数据中台基本概念
数据中台是指在业务前台和数据后台之间构建统一的数据平台,实现企业数据全维度的统一存储、统一管理、统一安全、统一模型和统一数据服务。从技术角度来说,数据中台是一套成熟的数据存储、数据管理和数据服务的软件包和管理机制,可以帮助企业持续不断地将数据变成资产并服务于前方业务。从管理角度来说,数据中台是企业的成本中心和创新中心,一方面构建数据中台会给企业带来更多的成本投入, 另一方面数据中台部门也会成为企业的创新源泉。
数据中台通过数据的统一存储和管理,形成了企业的数据资产层(数据将作为重要的生产资料参与企业运营),进而为客户提供高效服务。 这些服务与企业的业务之间存在比较强的关联性,很多服务都具有独特价值并可复用,是企业业务和数据的沉淀,不仅仅可以降低重复建设、减少烟囱式协作的成本,也是差异化竞争的优势所在。
数据中台建设的基础还是数据仓库和数据中心,数据仓库模型设计与原有的IOE时代变化不大,主流的依然是Kimball维度建模和Inmon关系模型两种, 在大型互联网公司数据中台构建过程中主要采用的是Kimball维度建模方法,在传统大型企业、政府事业单位多采用Inmon关系模型方法。
1) 对于大多数互联网公司来说,如何快速的响应需求变化和快速迭代是重点,很难从全局角度来精心设计Inmon关系模型(实体-关系模型,ER模型),很多场景中趋向于使用Kimball维度建模(维度-事实模型,DFM)方法快速完成任务。
2) 对于很多传统大型企业以及很多大型政府机关,从全局角度使用Inmon关系模型进行数据中台建模,根据业务需要构建一系列数据集市进行数据分析和数据挖掘,并对前方业务提供数据服务支持。
3) 数据仓库建设通常以日为粒度,通过ETL工具和数据复制工具将传统各种OLTP系统数据变化情况增量同步到数据仓库中。
4) 完善、统一的元数据管理是实现数据中台的前提之一,通过元数据管理企业可以清晰地知道自己都有哪些业务术语、规则、流程、定义、运算法则和模型等,可以可视化的、清晰的进行数据的世系分析和影响分析等。为了更好地管理整个信息供应链中各个组件的元数据和掌握各组件间数据的流动,企业需要有步骤地提升其元数据管理的成熟度,逐渐将元数据管理从局部走向全局,从分散走向集中,从孤立走向共享。
5) 数据治理是实现数据中台的关键步骤,是指将企业信息作为重要资产进行管理和控制的规程,主要用来解决信息冗余、冲突、缺失和错误等问题。完善的数据治理可以帮助企业避免各种操作违规、合规性风险和各种数据管理不善引起的决策效果不佳。
6) 为了在整个企业范围内跨业务竖井协调和重用主数据,需要进行统一的主数据管理,实现整个信息供应链内主题域和跨主题域相关主数据的一致性。主数据管理是构建企业信息单一视图的重要一环。
数据仓库建模方法论
业内主流的数据仓库方法论主要有两种:Kimball和Inmon。Kimball模式是由数据仓库和商务智能领域的权威专家Ralph Kimball博士提出的,其在《数据仓库工具箱(The Data Warehouse Toolkit)》一书中提出了Kimball维度建模模式。Kimball维度建模以来自前方分析决策需求为驱动构建数据模型,重点关注如何帮助用户快速完成分析需求,同时具有较好的大规模复杂查询的响应性能。Inmon关系模型模式是由数据仓库之父比尔·恩门(Bill Inmon)提出来的,主张构建以数据仓库为来源的数据集市。也就是说,Inmon关系模型模式中所有数据集市的数据都来自于面向主题的数据仓库数据存储。
Kimball模式是从底向上的,是从OLTP数据源到数据集市再到数据仓库的一种快速开发方法。Inmon模式是从顶向下的,会首先构建可以满足绝大多数需求的数据仓库,尝试构建满足不同业务预期的数据库表,并从各个数据源将数据进行ETL装入到数据仓库中。在面向某个业务场景需要构建数据集市时,则通过ETL将所需数据从数据仓库中装载进来。
数据中台支持新一代智慧城市建设:城市大脑
以新一代智慧城市为例, 我们来看看数据中台如何支持城市大脑各个业务落地的。如下图所示,城市大脑构建在数据中台之上,可以全方位服务整个城市交通、安全、城管、经济、园区等各种需求。