开发者学堂课程【阿里云实时数仓实战2:实时计算与结果输出:实时数仓分层】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/109/detail/1881
实时数仓分层
1)实时数仓分层
主要分为三个层次,分别为 ods,dwd 以及 ads。首先 ods 层主要是原始数据层,存在于 datahub 中,对这个数据不做任何修改,只是存在里面,通过实时计算引擎把他读出来进行读,将所读出来的数据进行加工运算,比如清洗、筛选、计算、关联等一系列操作,再写回 datahub 中,那么这一步我们称之为 dwd 层。
我们对数据进行分析结果统计,统计后的结果我们称之为 ads 层,通常会被保存到 AnalyticDB mysql 中。
2)实时数仓分层设计
主要是业务数据,十张表分别对应的是事实表数据以及维度表数据,DTS 进行同步事实表到 datahub 中,dts 维度表也同步到维表库(RDS)中,接下来要进行实时计算,实时计算主要是对原始数据也就是刚才同步过来的数据,这份数据不要做任何修改,先将数据读出进行计算,计算后再写回到 datahub,这就是对他清洗过后的数据。
原始数据的作用是,防止再 join 过程中出现异常或者崩溃,我们还可以从原始数据中再次读取,再次运算。
dwd 层主要是对数据进行 join 处理、清洗等一些操作。
将 dwd 层的数据和维表上的数据进行分析统计,得出最终的结果,所产生的数据称之为 ads 层数据,结果数据我们会将其写到 AnalyticDB 中。
所以在数仓中,原始层存在 datahub 中,清洗层也存在 datahub 中,最终的运算结果存在 AnalyticDB,用以可视化。