一、什么是数据中台
数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4部分:数据资产、数据治理、数据模型、数据服务。
打通数据建模对全域数据进行沉淀形成数据资产,从而提供统一的数据服务功能。
二、如何建立数据中台
建设数据中台主要就是从数据模型、数据资产、数据治理、数据服务四部分出发。
首先需要做整体规划,哪些数据需要纳入到数据中台中,根据数据接入的情况,进行技术选型,评估集群的配置,规划至少3年的计算和存储资源。
1、数据模型
数据模型,就是我们熟悉的数据仓库中的模型,按照数据仓库规范分层开发模型,实现数据的标准化,多采用维度建模。还有一些挖掘模型,如果用的多了,也可以沉淀到数据中台中。我们可以看出数据中台中的模型具有通用性。
数据建模一般分为2个步骤:
- 确认事实表,分析业务的生命周期,明确业务的关键步骤。在进行指标定义的时候是否覆盖了本主题语中的全部指标,判断哪些指标可以通过加减乘除计算得到等。
- 确定维度,粒度是模型设计的关键,太细的粒度不利于上层数据分析汇总,太粗的粒度又不能满足前段多维度个性化查询需求。基于此,模型设计时候一般考虑分层,层级越往后,粒度越粗。冗余维度也是需要考虑的,设计冗余的维度可以避免统计中过多的关联导致复杂的计算逻辑,影响性能。
2、数据资产
在数据仓库中我们已经建立了一些模型,但是只有打通数据孤岛后才可以称为资产。需要规范指标库,这些指标可以组合处理满足外部人员个性化的指标需求。资产管理的基础是做好元数据管理,元数据包括采集的接口信息,模型信息、指标定义,作业的血缘关系、数据存储以及访问情况等。
3、数据治理
很多数据仓库人员曾沦为“表哥”,天天忙着提取数据核对指标,时间长了,业务人员容易对你的数据不信任。数据治理主要是为了保障数据资产的完整性、准确性、一致性、及时性。根据指定的规范开发模型、校验模型、管理模型,为业务提供统一的、准确的指标保驾护航。
4、数据服务
数据中台最重要的就是要对外提供统一的服务能力。数据服务需要包含以下几个能力:
- 数据接口标准化:提供统一的数据服务在线查询视图,让开发者能够快速、简单的访问数据服务;
- 数据开发可视化:提供服务接口的可视化配置,开发者只需要配置SQL就可以生产API,减低接口开发技术要求,便于维护和接口管理。对于业务分析人员可以让他们轻松的进行算法分析,包括模型管理、可视化编排流程,算法模型发布等功能。
三、数据中台和数据仓库有什么不同
很多人对数据中台和数据仓库两个概念可能不是很清楚,其实最主要的是思维理念不同,数据仓库是“管理数据”,数据中台是“经营数据”,数据中台是为了提供服务而生(也有说是为了前台而生)。
参考资料:《数据中台-阿里巴巴的数据整合、价值发掘、社会赋能之道》