开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数仓的元数据管理讲解】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/640/detail/10498
电商项目之数仓的元数据管理讲解
元数据管理分析
1、表信息:
包括表英文名、中文注释、表状态(在线&下线):主要的管理一些名字,比如说怎么取名,根据开发文档。它有一个在线和下线,在线下线,其实就是你这个表是否在使用。使用就是在线未使用就是下线。
2、字段信息,包括字段类型、英文名、中文名、字段往释、保密级别(机密\保密\一般)、逻辑说明:
字段类型肯定是根据我们当中进行一个例行的限制,比如说有些数据,这个具体的维度号。那我们可能要需要设置为一些私人之类的,注释就不说了。保密级别,分为保密机密一般。
3、负责人信息
业务/开发负责人名超链接、所在部门:就是业务开发部负责人的一个超链接所在部门,就是说谁去负责这一块。
打个比方,可能有一个业务线,那里面可能有多张表,那这个表可能会写上会有哪些人去负责这些表来去实现。那他可能会做一些创业阶段,一个显示,然后还有一个总体的总负责人他所在部门的一些什么。比如像一些测试的人员,哪些测试员负责设计表,哪些人负责负责生那个表等等。
4、分区信息,分区名、分区大小、分区记录条数、生成分区的时间:那分区名称我们都会按照人家这个时间来定规矩,那分区大小、分区的记录条数那是根据我们的数据量。我们都会记录分区内相关的详情信息,还有生成分配时间,比如说今天的数据可能会在明天生成。
5、血缘信息:
表上游、下游节点信息:血缘关系这里面就是上一秒和下一秒的一个节点信息,相比较来说,比如说 ODS 和 DMD 他们之间的一个节点就像我们的用户主题他们的一些 ID 这些节点都是要有的。
6、代码信息:
生成该表对应的代码地址超链接
7、存储信息,总表大小、波动情况:
对文件有一个存处信息,然后还会生成这个新的,他主要是收益里面这个总表的大小和波动期。
就是说我们一天下来这个表的大小,可能我们会有一个顺序进行显示,然后是不动的。
就是今天的表大小和昨天这个表大小,他们上下活动有多少都有一个波动的值,那这样我们都会做一些这种信息的一个管理。
8、热度情况,标识被下游依赖过多:
热度信息就是标识对下游依赖过多的。打个比方用户信息表,那这个用户信息表上可能会依赖于表商品表列出表等等。热度信息表,我们都会给它做上一些标识,进行一个热度管理。
9、权限信息:
申请访问超链接、权限审批到单人单表单字段粒度、不同保密级别对应不用的审批流程:可能稍微复杂一点,就是可能说我们在操作的时候打个比方,大家可能在做梳妆的时候可能会删除表,另外清空表或什么。
这个这个把哪些表搞错了,删掉等等这些东西。我们在投资的时候比如说像一些大公司肯定都是比较严格的,因为他们的管理工具可能都是自己的,所以说他们就研究这一套管理工具之后,那我们再做一些表的创建,表格添加、字段添加等等,都是有一些审核的标准或者别的要求。
上面也说了申请访问超链接就是权限,权限审批到单人单表单字段的力度,你可以到每个字段的内容,那不同的保密级别可能对应到什么不同的审批流程,但这个审批流程可能稍微相比较的复杂一些。
比如像什么像用户信息表,那用户信息表里面可能存的都是用户的一些隐秘信息,那这个时候假如说你想使用,那你需要审批一下需要走一下这个流程啊。
使用注意事项:
园区管理服务,他们去管理一些我们的原数据,然后还有一个公司,比如说有一些资源能力的,他可能会资源一些自己的管理工具。
总结一些信息,他可能是为进行管理,所以说,每个公司管理的东西可能不一样,但是可能都会去做管理,有了这个就可以给大家简单描述一下。