《全链路数据治理-智能数据建模 》——客户案例:菜鸟集团数仓建模(7) https://developer.aliyun.com/article/1230926?groupCode=tech_library
五、 提问
Q:菜鸟的建模是基于DataWorks 做定制化开发吗?
A:建模平台是我们和DataWorks 共建的,我们是建模平台的一个使用方,也会把使用中的一些问题提给DataWorks 来迭代优化。外部用户也可以在阿里云上开通DataWorks 来体验这个数据建模产品,和集团内的版本没有太多区别。
Q:历史数据有变动的情况,每一层应该怎么处理?
A:对于历史变更比较频繁的数据,建议做一个历史全量表。对于变更不频繁的数据,建议做一个每日增量,比如说最近90 天变更。这个可以根据业务数据变更的频繁程度来做一个合适的模型设计。
Q:模型是怎么打分的?怎么控制数仓SQL规范?
A:开发人员写SQL 容易出现跨层依赖。首先是SQL 规范,DataWorks 提供了很多检查器的功能,可以监测到数据上很大一部分问题,比如select *。其次是模型打分,主要从模型的规范和成本、稳定性和通用性来评估模型的好坏,将这几个维度综合起来来给模型打一个分。
Q:正向数据模型只是建一个表结构吗?建模后如何灌入数据?与宽表打通?
A:正向数据模型不只是建一个表结构,还需要将模型物理化,物理化后再进行数据的灌入,后续还有很多ETL开发功能在里面。