基于MaxCompute的数仓数据质量管理
数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理。随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节。本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导。
DataX工具的使用
一、DataX框架
1、Datax3.0设计框架
Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework。
Writer: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端。
阿里云物联网平台数据转发到DataHub示例
您可以使用规则引擎将数据转到DataHub上,再由DataHub将数据流转至实时计算、MaxCompute等服务中,以实现更多计算场景。本文主要演示通过规则引擎将消息流转到DataHub,并通过Dataconnector 将消费流转到MaxCompute的表。