数据治理新能力解读| 学习笔记(二)

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习数据治理新能力解读

开发者学堂课程【云原生一体化数仓新能力解读课程数据治理新能力解读】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1193/detail/18112


数据治理新能力解读


6. DATAWORKS数据治理中心 概要使用路径

来看一下数据治理中心的概要使用路径,如何去操作,上手使用。大体使用数据治理中心可以分为三个环节。

image.png

1)、准备和评估

首先来看一下准备和评估的环节,前面有提到这些数据治理中心通过内置的模板。丰富检查器治理项。然后开始这个模板之后来就可以看到现在整体的治理的一个健康的评估的一个报告,这就是一个现状评估。

2)、问题的预防和优化

在这里,问题的预防和优化的环节,需要就使用到这个具体的检查项和治理相关的能力。因为检查项它是面向于事前治理这个环节,会侵入日常工作的比如任务的提交,发布这些问题。而如果这个检测不通过,它就会阻塞,这个发布提交流程,所以这个功能它是默认是不开启的,需要有一定权限的账号,就是比如主账号,以及有阿里云 DATAWORKS 权限的 RUNS ,然后来开启,并且可以控制到在单个具体工作空间,来使用一些特定检查项,这里面向社会治理,就会自动发现这个产量的问题,这不需要额外的设置,启动模板以后就可以自动生效。

3)、长效的开展,长效运营

治理项还要检查项使用,然后治理工作实习一段时间之后来,在这里评估报告做完,就可以看到这里的健康分离提升和具体的这个存储计算等维度的一个治理成效情况,并且配合一些治理的运营方式来促进治理的工作进行长效的开展,长效运营。

 

二、数据治理中心产品细部介绍


1.数据治理现状评估

接下来细化展开做一个具体的介绍。首先看一下这个数据治理的现状评估。

开始模板之后进入了数据治理这个产品模块,首先有一个数据治理评估报告的一个页面,会提供租户全局视角,以及单个工作空间的一个视角,以及个人视角的三个视角的报告,覆盖五个维度的一个健康分评估!最关键一点,对于不同的工作空间,不同个体,评估的模型采用的是同一套标准。这样能够保证评估的客户可以执行,这样可以做横向的比较,也可以在持续的时间维度的这样的一个比较,是前后进行的比较。

这个报告,可以在治理工作进行开始前做一个技术参照,然后治理工作实施一段之后,可以回顾一下,这里的一个水平提升的情况是什么样子的?

image.png

治理的健康分评估模型,有五维度的研发,质量,安全和计算存储这五个维度,然后每个维度有非常多的细化的一个治理项和检查项目,来支撑这个健康分的打分,这个健康分整体的逻辑,它采取的是扣分的逻辑,满分是100分,而通过这个内置的算法,基于这些问题,治理项和检查项发现的问题扣减。扣减后,得到一个具体的健康分,然后五个维度的是力度的健康分,然后再做一个综合的一个算法评估,再得到一个全局的一个健康分。

逻辑可能看起来不太复杂,但是具体的底层的元数据的获取加工,治理问题的洞察,而这些是比较有挑战的,由于时间的原因,各个维度的这个具体计算逻辑,就不做进一步的展开了。

image.png2.治理问题的处理优化 – 自动预防(检查项)

接下来看一下事前治理,检查项目的一个具体的功能如何使用,检查项开始之后可以作用在某一个具体空间,可以开启需要使用的这个治理的检查下,然后它可以作用在比如左下角展示的,在这个任务的提交,或者发布的环节能够自动触发这个扫描,图稍微有点不清楚。

image.png

这里举的例子,比如限制需要在 so 代码里面,不允许通过 sql 脚本来创建表,有这样的一个检查项,那么在任务提交阶段的时候,发现这个代码里面有这样的一个创建表的这样一个代码,检查就不会通过,然后这个提交的过程就会被阻塞,而这个提交者把这个问题按照在这个处理磁盘里面。提供了这个指导来进行优化,这样处理以后再进行一下,然后再发布了生产,然后通过这样的一个环节,就能够非常好的去杜绝这个治理问题新的问题的引入。

然后这个内置的模板里面,当前提供了数十种检查项,这些检查项可以开箱即用,然后而且这些检查项随着内部的沉淀和用户的一个反馈,正在丰富中。

image.png

3.按需增加自定义检查项 – 基于开放平台进行扩展

此外,如果觉得这个内置的这些检查项还不足够,还有一个可以基于开放平台经营这个检查项一个自定义拓展能力。data works 开放平台最近全新推出的重磅的一个重要的功能特性,提供了开放接口,开放 pth 以及扩展程序,然后允许基于data works 这个直接开放关系进行深度的一个对接!data works 这个流程进行自定义扩展。

然后要扩展一个自定义检查项,主要会用到开放事件,扩展点,然后扩展程序,然后只要把这个按照指导封装好,进行自定义的检查,然后注册到平台里。就可以跟这些内置的检查项一并使用进行事前的职业问题的一个自动发现和预防拦截。

image.png

4.治理问题的处理优化 – 自动发现(治理项)

对于存量问题,提供治理项,就是自动发现的能力,对于治理问题进行自动的扫描,还要找出需要治理化的问题,提供相应的治理的指南。

image.png

举个例子,下边用的是比如输出为空的治理项,平台里面在启用模版之后,会基于内置的规则,实例规则,把存量的问题自动扫描出来。相应的,提供了相应的问题优化指南,针对这类问题怎么样去做?才能把问题解决。遵循指引,把问题的处理之后,效果在健康分上就能够得到下图的体现。

与检查项类似,也提供了数十种内置的治理项,开箱即用。,在研发、质量、存储、计算等五个维度都有相应的提供,就不主要介绍了。现在总共有43个内置的治理项,所以治理项是非常丰富的,基本上能够满足平时使用的需要。

image.png

5.数据治理的长效运营机制

最后来看看长效运营的机制。前面提到为了避免这个数据治理的工作成为一个运动式的工作,需要这样的一个长效运营的机制。在数据集里的演进中,能看到三个明显的方向,分别从主机,平台和业务三个方向的描述。

image.png

(1)、组织架构

首先,数据治理它不单纯是大数据团队,而一直在搞技术而鉴、评、带这样一个工作,它更多的是一个组织企业当中的问题。跨越以前的单个的技术团队,要到公司整体的架构的设计,比如就是下图左侧展示的,里面有数据平台团队,有业务团队,还有财务,风控等一系列协同团队,这里面就需要成立相应的几个数据委员会,下辖的这个数据处理的一个小组来推荐治理工作去开展。而且它因为设置了这种跨团队,对整个组织来说,一个很头疼的问题就是如何来衡量这个数据治理的一个最终的效果,如何更好的发挥这个组织的主动性。

2)、考核指标

也就是在阿里云内部设置健康分的一个很大的出发点,就是这个考核指标。根据健康分客观的,量化的一个指标去衡量治理一个提升程度,这样的一个治理成效的一个体现。比如对于某一个 built,可以设定今年的目标之一,就是把健康分从70分提升到80分,可以从计算,存储,研发,质量,安全各个方面入手,如果在这过程中有什么需求,就可以统一起点,前面讲到了,这样平台同样大家一起共同,对这个目标功能实现。这些能力也都成立在平台上,这样各个团队就有一个统一的考核指标来带领大家做数据治理工作。

3)、长效运营

同时,也通过一些运营的手段,去推进这个治理的一个落地,比如会去经营数据治理的一些战役,各个团队开展这个数据治理的比武,这样的一些运营工作,通过健康分,不断地做一些延展。达到组织协同的目的,同时发挥在治理上的主动性,对于长效治理来说,基于健康分做了一些事情,然后这一块是非常非常重要的,就是能够把运营治理从运动态的变成可以持续的,可以推进的工作。

 

6.可视化查看治理成效

然后治理成效这一块,作为成本节约,平台上就数据治理中心,可以将这个比如节约的存储,计算的一个资源,风险的预防以及问题修复等等是一系列的数据,非常清晰的量化,展示出来,同时也提供了健康分的一个趋势的展示,去体现健康分提升的一个情况,比如前面讲到的,一个先前设定的目标是从70分提升到80分。通过这个趋势就能看到目标是否得到了有效的达成。

image.png

7. 数据治理的运营管理

在这个数据治理的一个运营管理方面,数据治理中心也着眼于把数据治理从小部分人的工作,转变为有良好的群众基础和参与度的普遍的工作。

首先这个治理排行榜,可以让治理的管理员和普通同学都能清楚的感觉到它所处一个位置,然后让优秀的同学得到表扬,而不足的得到鼓励。

同时它们也面向治理的管理员和普通同学提供了三个不同的视角,全局视角,就整个租户的视角。以及带动工作空间的视角,以及还有个人视角,来清晰了解治理的一个健康水平以及在这个视角下需要关注的来优化的问题。比如个人名下,管理的表和任务等等,它关联的治理问题有哪些,通过个人视角就能很清晰的看到,从而进行放心的优化治理。

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
存储 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
165 0
|
分布式计算 DataWorks 对象存储
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。
1532 1
|
数据采集 SQL 机器学习/深度学习
DawnSql在数据治理中的优势
DawnSql数据治理平台的优势。1、降低成本 DawnSql 既是分布式数据库,也是离线数仓,也是实时数仓 DawnSql 既支持标准 Sql,也支持 NoSql,还支持自己定义的语言 DawnSql 是分布式缓存,支持对数学的实时反馈,提升业务对实时数据的价值 DawnSql 是分布式的服务平台,可以支持服务的负载均衡和故障转移 DawnSql 支持机器学习和扩展其方法 结论:DawnSql = 传统大数据平台 + MPP平台 + 微服务框架。
DawnSql在数据治理中的优势
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
496 0
|
DataWorks 数据可视化 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
127 0
|
数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(6)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(6)
146 0
|
存储 运维 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)
149 0
|
数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(2)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(2)
167 0
|
运维 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(8)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(8)
135 0
|
数据建模 定位技术
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(5)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(5)
132 0