《使用 DataWorks 进行数据治理的实操演示》|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习《使用 DataWorks 进行数据治理的实操演示》

开发者学堂课程【互联网技术实战营·数据智能专题《使用  DataWorks  进行数据治理的实操演示》】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/915/detail/14470


《使用  DataWorks  进行数据治理的实操演示》


 使用 DataWorks 进行数据治理的实操演示

(1)企业做数据化转型不同的阶段:

数据治理”马斯洛需求层次”

企业数字化转型阶段不同,在不同的阶段有自己的痛点和需求。在做大数据的时候,最开始会关心数据产出的及时性,以及准确性。在  DataWorks  里面,我们可以通过运维中心以及智能监控的能力可以在  DataWorks  里面看到整体的任务运行情况跟任务运行时间、以及它产出的效率等等、能够一键式的做整体的智能监控。

在数据质量层会关注数据整体的完备性,比如说表的字段是不是缺失、表的内容是不是准确。

企业数字化转型阶段不同,数据治理关注的核心需求存在差异,需求:

1)数据生产、存储、使用的成本优化控制(在  DataWorks  里面也提供了资源大盘跟优化的能力,在里面可以通过资源大盘去看到数据的情况。也可以智能盘点无效表,或者是当前没有使用的表智能的去做优化。)

2)数据安全、敏感数据识别和保护、合规性要求(对于企业来讲。数据的安全性至关重要,把数据报表进行共享之后,也可以做各个数据报表之间的管控,表之间的平级,对于报表的使用要控制好。)

3)数据共享使用、容易查找、好理解、可复用(企业数据可以跟其他的部门共享,DataWorks  的数据地图就提供了非常便捷的帮助,像对元数据整体的采集,这里面可以快速看到数据的整体情况,原数据是非常关键的,在整个数据中起到了核心枢纽的作用。)

4)数据质量管控、完备注、正确性、准确性(在数据质量层会比较关注数据的完善度,比如表的字段内容是不是缺失,字段是不是准确等等、数据质量里面可以设置强规则和弱规则,用当前提供的阈值去判断内容是否准确)

5)数据产出及时性要求

DataWorks

1)资产盘点、资源优化

2)安全卫士、数据保护伞

3)数据地图

4)数据质量

5)运维中心,智能监控

(2)基于  DataWorks  的大数据治理演示场景(离线数据为主)

本场景适用于  DataWorks  做大数据一站式开发,先将数据实时采集到  kafka,通过实时计算机对数据进行  ETL  处理并写入  HDFS,然后使用  Hive  进行数据分析,最后通过  DataWorks  进行数据治理,包括数据地图、数据质量监控。在数据质量里面可以提供监控报警的能力,能看到橙色预警。

使用场景:

1)日志采集、数据及分析

2)日志使用  Fink  实时写入  HDFS

3)日志数据实时  ETL

4)日志数据  HIVE  分析

5)一站式数据开发

6)数据治理(原先的架构还要做保留和融合,离线部分清洗完之后保留。)

行业标签:互联网、游戏、电商、通用

产品标签:EMR \实时计算、VPC、EIP  等

场景演示结果:在数据质量里面可以提供监控报警的能力,能够看大字段的橙色预警,里面如果设置了强规则。也可以对下流任务进行阻断,以免对下流数据产生污染。比如说上游的表没有及时产出,那下流的数据就会造成损失。

数据地图:可以看到所有表基本的字段,以及它所包含的关系,还有每个字段的描述等等、

数据质量:里面可以提供监控报警的能力,能够看到字段的橙色预警。

里面如果设置了强规则的话,也可以对下流进行阻断。以免他对下流的数据产生污染,比如说下游的表没有及时产出,那上游的任务就会造成数据的丢失。

3举例过程如何实现:

云架构设计工具  CADT:

是一款为上云应用提供云架构管理的产品,显著的降低云上管理的难度和时间成本。

本产品提供丰厚的应用架构模板,同时也支持资助规模方式定义应用云上架构,用户可以非常方便的对云上架构方案的版本、部署、运维、回收进行安全周期的管理。里面也提供了非常多官方的模板,可以根据自己的需求去构建相关的内容。

当把架构图选择完之后,就可以做整体的部署,然后进行快速构建 。在  flink  里面,提供了非常多的这个  connector,能能够去快速的去构建。配置数据质量:首先要添加 一个分区,如果有分区,我们就要先建立一个分区的表达式,建完之后就根据表配置相关的规则,可以根据钉钉的方式告知我们哪里出问题了。

当我们设置一个强的规则的时候,比如说出现红色报警的时候,那它就可以去注册下游的调度任务。还可以去动态智能的去做智能的预判。帮助大家快速的去设置相关的规则。

新建采集:

提交采集之后就可以同步进来。收集完数据之后,可以看到各个平台数据的收集。

总体概况:

在  Dataworks  里面,·有数据地图的模块,在数据地图里面,可以通过数据发现的能力,对接平台。新建一个采集器,里面可以看到在集群里面能够找到相关的集群,然后去进行提交。

提交之后运行一下就可以把元数据一键同步过来。因此可以看到  Dataworks  里面对于云上的各个平台,都可以搜索对他进行元数据管理。当我们收集完元数据之后,可以在全部数据里面看到各个平台的元数据的收集。处理完数据之后,我们可以在表里面看到相关的详细信息。这里就可以在数据地图里面去详细解读里面的信息。

还可以去编写相关的使用说明。出现红色下游的时候,就要关注调度任务的执行,这里也可以设置相应的阈值,也可以做  Dataworks  里面智能的预警。

里面有内置的模板,内置的模板主要是两种形式:一种是表级别的规则,比如说这个表有没有产出数据,这样就可以快速去监控,另外一种就是字段的数值有没有满足业务所需要的范围,如果超出了范围,也能及时告警。

当定义了一个表级别的规则,结果没有产出数据,这个表产出的数据行数等于零,那我们就要快速的去配置添加规则,添加完之后,在  Dataworks  里面提供了试跑的能力,这样的话可以快速的去测试当前定义的规则有没有生效。

里面能看到当前规则是不是正常运行的,是否已经触发预警。出发告警之后,可以在邮件收到通知。

也可以通过钉钉、短信的方式,都能及时给我们告警提示。里面可以看到是哪一个规则出问题了,以及波动的情况。

1)如何配置数据质量的规则:

收集了元数据之后,每张表都可以自动列出来。然后就可以根据表去配置相关的监控规则。

做了整体的监控后,里面会有相应的告警,整体的趋势。

(3)Dataworks  安全中心

数据访问控制:权限申请、权限申请记录、权限审批记录、权限审计

平台诊断能力:

1)数据计算与存储安全诊断

2)数据传输安全性诊断

3)数据生产安全性诊断

4)平台安全配置诊断

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 产品官网 https://www.aliyun.com/product/bigdata/ide 大数据&AI体验馆 https://workbench.data.aliyun.com/experience.htm#/ 帮助文档https://help.aliyun.com/zh/dataworks 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
10天前
|
人工智能 自然语言处理 DataWorks
DataWorks X DeepSeek : 用AI实现数据开发治理!
阿里云DataWorks正式接入DeepSeek-R1系列模型,用户可通过DataWorks Copilot智能助手,以自然语言交互完成代码操作,实现数据开发、分析与治理全流程。DataWorks内置阿里巴巴16年大数据建设方法论,支持多种大数据引擎和AI计算服务,助力“Data+AI”全生命周期管理。开通DataWorks后即可免费体验DataWorks Copilot。
|
2月前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
137 1
|
3月前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
3月前
|
DataWorks 搜索推荐 数据挖掘
DataWorks: 驾驭数据浪潮,解锁用户画像分析新纪元
本文详细评测了DataWorks产品,涵盖最佳实践、用户体验、与其他工具对比及Data Studio新功能。内容涉及用户画像分析、数据管理作用、使用过程中的问题与改进建议,以及Data Studio的新版Notebook环境和智能助手Copilot的体验。整体评价肯定了DataWorks在数据处理和分析上的优势,同时也指出了需要优化的地方。
158 24
|
3月前
|
机器学习/深度学习 存储 数据采集
解锁DataWorks:一站式大数据治理神器
解锁DataWorks:一站式大数据治理神器
110 1
|
4月前
|
数据采集 人工智能 DataWorks
限时优惠体验!DataWorks数据治理中心全新升级为数据资产治理
DataWorks进行全面升级,从数据治理中心转型为数据资产治理,强调业务视角下的数据分类与管理,引入Data+AI全链路数据血缘追踪,提升数据质量和安全性,促进跨部门协作。同时,提供限时优惠活动,助力企业高效利用数据资产。
|
7月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
707 54
|
7月前
|
SQL 分布式计算 DataWorks
利用DataWorks构建高效数据管道
【8月更文第25天】本文将详细介绍如何使用阿里云 DataWorks 的数据集成服务来高效地收集、清洗、转换和加载数据。我们将通过实际的代码示例和最佳实践来展示如何快速构建 ETL 流程,并确保数据管道的稳定性和可靠性。
276 56
|
6月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
7月前
|
数据采集 JSON DataWorks
DataWorks产品使用合集之支持哪些数据引擎
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。