4.3 DW层的建设
解决原始数据中数据存在噪声、不完整和数据形式不统一的情况。形成规范,统一的数据源。如果可能的化尽可能和离线保持一致。
4.4 实时数仓维度数据建设
变化频率低的维度
可以通过离线仓库的维度数据,同步到缓存,或者通过公共服务提数据。通过维度服务查询,对用户屏蔽细节。
变化频率高的维度
通过维度数据的变化的消息构建拉链表
通过事实数据计算衍生维度构建拉链表
Tips:可以通过Hbase的MIN_VERSIONS方便的构建类似于拉链表的结构。
4.5 实时数仓维度的使用
4.6 实时数仓汇总层的建设
五、仓库的质量保证
实时数仓工具功能结构体图
实时数仓工具——元数据与血缘管理
- 通过元数据服务生产Catalog
- 解析 DDL 语句创建更新表
- 作业信息和运行状态写入元数据
实时数仓工具——数据质量验证
将实时数据写入Hive,使用离线数据持续验证实时数据的准确性。