开发者学堂课程【互联网技术实战营·数据智能专题:《使用 DataWorks 进行数据治理的实操演示》】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/915/detail/14470
《使用 DataWorks 进行数据治理的实操演示》
使用 DataWorks 进行数据治理的实操演示
(1)企业做数据化转型不同的阶段:
数据治理”马斯洛需求层次”
企业数字化转型阶段不同,在不同的阶段有自己的痛点和需求。在做大数据的时候,最开始会关心数据产出的及时性,以及准确性。在 DataWorks 里面,我们可以通过运维中心以及智能监控的能力可以在 DataWorks 里面看到整体的任务运行情况跟任务运行时间、以及它产出的效率等等、能够一键式的做整体的智能监控。
在数据质量层会关注数据整体的完备性,比如说表的字段是不是缺失、表的内容是不是准确。
企业数字化转型阶段不同,数据治理关注的核心需求存在差异,需求:
1)数据生产、存储、使用的成本优化控制(在 DataWorks 里面也提供了资源大盘跟优化的能力,在里面可以通过资源大盘去看到数据的情况。也可以智能盘点无效表,或者是当前没有使用的表智能的去做优化。)
2)数据安全、敏感数据识别和保护、合规性要求(对于企业来讲。数据的安全性至关重要,把数据报表进行共享之后,也可以做各个数据报表之间的管控,表之间的平级,对于报表的使用要控制好。)
3)数据共享使用、容易查找、好理解、可复用(企业数据可以跟其他的部门共享,DataWorks 的数据地图就提供了非常便捷的帮助,像对元数据整体的采集,这里面可以快速看到数据的整体情况,原数据是非常关键的,在整个数据中起到了核心枢纽的作用。)
4)数据质量管控、完备注、正确性、准确性(在数据质量层会比较关注数据的完善度,比如表的字段内容是不是缺失,字段是不是准确等等、数据质量里面可以设置强规则和弱规则,用当前提供的阈值去判断内容是否准确)
5)数据产出及时性要求
DataWorks
1)资产盘点、资源优化
2)安全卫士、数据保护伞
3)数据地图
4)数据质量
5)运维中心,智能监控
(2)基于 DataWorks 的大数据治理演示场景(离线数据为主)
本场景适用于 DataWorks 做大数据一站式开发,先将数据实时采集到 kafka,通过实时计算机对数据进行 ETL 处理并写入 HDFS,然后使用 Hive 进行数据分析,最后通过 DataWorks 进行数据治理,包括数据地图、数据质量监控。在数据质量里面可以提供监控报警的能力,能看到橙色预警。
使用场景:
1)日志采集、数据及分析
2)日志使用 Fink 实时写入 HDFS
3)日志数据实时 ETL
4)日志数据 HIVE 分析
5)一站式数据开发
6)数据治理(原先的架构还要做保留和融合,离线部分清洗完之后保留。)
行业标签:互联网、游戏、电商、通用
产品标签:EMR \实时计算、VPC、EIP 等
场景演示结果:在数据质量里面可以提供监控报警的能力,能够看大字段的橙色预警,里面如果设置了强规则。也可以对下流任务进行阻断,以免对下流数据产生污染。比如说上游的表没有及时产出,那下流的数据就会造成损失。
数据地图:可以看到所有表基本的字段,以及它所包含的关系,还有每个字段的描述等等、
数据质量:里面可以提供监控报警的能力,能够看到字段的橙色预警。
里面如果设置了强规则的话,也可以对下流进行阻断。以免他对下流的数据产生污染,比如说下游的表没有及时产出,那上游的任务就会造成数据的丢失。
(3)举例过程如何实现:
云架构设计工具 CADT:
是一款为上云应用提供云架构管理的产品,显著的降低云上管理的难度和时间成本。
本产品提供丰厚的应用架构模板,同时也支持资助规模方式定义应用云上架构,用户可以非常方便的对云上架构方案的版本、部署、运维、回收进行安全周期的管理。里面也提供了非常多官方的模板,可以根据自己的需求去构建相关的内容。
当把架构图选择完之后,就可以做整体的部署,然后进行快速构建 。在 flink 里面,提供了非常多的这个 connector,能能够去快速的去构建。配置数据质量:首先要添加 一个分区,如果有分区,我们就要先建立一个分区的表达式,建完之后就根据表配置相关的规则,可以根据钉钉的方式告知我们哪里出问题了。
当我们设置一个强的规则的时候,比如说出现红色报警的时候,那它就可以去注册下游的调度任务。还可以去动态智能的去做智能的预判。帮助大家快速的去设置相关的规则。
新建采集:
提交采集之后就可以同步进来。收集完数据之后,可以看到各个平台数据的收集。
总体概况:
在 Dataworks 里面,·有数据地图的模块,在数据地图里面,可以通过数据发现的能力,对接平台。新建一个采集器,里面可以看到在集群里面能够找到相关的集群,然后去进行提交。
提交之后运行一下就可以把元数据一键同步过来。因此可以看到 Dataworks 里面对于云上的各个平台,都可以搜索对他进行元数据管理。当我们收集完元数据之后,可以在全部数据里面看到各个平台的元数据的收集。处理完数据之后,我们可以在表里面看到相关的详细信息。这里就可以在数据地图里面去详细解读里面的信息。
还可以去编写相关的使用说明。出现红色下游的时候,就要关注调度任务的执行,这里也可以设置相应的阈值,也可以做 Dataworks 里面智能的预警。
里面有内置的模板,内置的模板主要是两种形式:一种是表级别的规则,比如说这个表有没有产出数据,这样就可以快速去监控,另外一种就是字段的数值有没有满足业务所需要的范围,如果超出了范围,也能及时告警。
当定义了一个表级别的规则,结果没有产出数据,这个表产出的数据行数等于零,那我们就要快速的去配置添加规则,添加完之后,在 Dataworks 里面提供了试跑的能力,这样的话可以快速的去测试当前定义的规则有没有生效。
里面能看到当前规则是不是正常运行的,是否已经触发预警。出发告警之后,可以在邮件收到通知。
也可以通过钉钉、短信的方式,都能及时给我们告警提示。里面可以看到是哪一个规则出问题了,以及波动的情况。
1)如何配置数据质量的规则:
收集了元数据之后,每张表都可以自动列出来。然后就可以根据表去配置相关的监控规则。
做了整体的监控后,里面会有相应的告警,整体的趋势。
(3)Dataworks 安全中心
数据访问控制:权限申请、权限申请记录、权限审批记录、权限审计
平台诊断能力:
1)数据计算与存储安全诊断
2)数据传输安全性诊断
3)数据生产安全性诊断
4)平台安全配置诊断