数据治理新能力解读| 学习笔记(二)

简介: 快速学习数据治理新能力解读

开发者学堂课程【云原生一体化数仓新能力解读课程数据治理新能力解读】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1193/detail/18112


数据治理新能力解读


6. DATAWORKS数据治理中心 概要使用路径

来看一下数据治理中心的概要使用路径,如何去操作,上手使用。大体使用数据治理中心可以分为三个环节。

image.png

1)、准备和评估

首先来看一下准备和评估的环节,前面有提到这些数据治理中心通过内置的模板。丰富检查器治理项。然后开始这个模板之后来就可以看到现在整体的治理的一个健康的评估的一个报告,这就是一个现状评估。

2)、问题的预防和优化

在这里,问题的预防和优化的环节,需要就使用到这个具体的检查项和治理相关的能力。因为检查项它是面向于事前治理这个环节,会侵入日常工作的比如任务的提交,发布这些问题。而如果这个检测不通过,它就会阻塞,这个发布提交流程,所以这个功能它是默认是不开启的,需要有一定权限的账号,就是比如主账号,以及有阿里云 DATAWORKS 权限的 RUNS ,然后来开启,并且可以控制到在单个具体工作空间,来使用一些特定检查项,这里面向社会治理,就会自动发现这个产量的问题,这不需要额外的设置,启动模板以后就可以自动生效。

3)、长效的开展,长效运营

治理项还要检查项使用,然后治理工作实习一段时间之后来,在这里评估报告做完,就可以看到这里的健康分离提升和具体的这个存储计算等维度的一个治理成效情况,并且配合一些治理的运营方式来促进治理的工作进行长效的开展,长效运营。

 

二、数据治理中心产品细部介绍


1.数据治理现状评估

接下来细化展开做一个具体的介绍。首先看一下这个数据治理的现状评估。

开始模板之后进入了数据治理这个产品模块,首先有一个数据治理评估报告的一个页面,会提供租户全局视角,以及单个工作空间的一个视角,以及个人视角的三个视角的报告,覆盖五个维度的一个健康分评估!最关键一点,对于不同的工作空间,不同个体,评估的模型采用的是同一套标准。这样能够保证评估的客户可以执行,这样可以做横向的比较,也可以在持续的时间维度的这样的一个比较,是前后进行的比较。

这个报告,可以在治理工作进行开始前做一个技术参照,然后治理工作实施一段之后,可以回顾一下,这里的一个水平提升的情况是什么样子的?

image.png

治理的健康分评估模型,有五维度的研发,质量,安全和计算存储这五个维度,然后每个维度有非常多的细化的一个治理项和检查项目,来支撑这个健康分的打分,这个健康分整体的逻辑,它采取的是扣分的逻辑,满分是100分,而通过这个内置的算法,基于这些问题,治理项和检查项发现的问题扣减。扣减后,得到一个具体的健康分,然后五个维度的是力度的健康分,然后再做一个综合的一个算法评估,再得到一个全局的一个健康分。

逻辑可能看起来不太复杂,但是具体的底层的元数据的获取加工,治理问题的洞察,而这些是比较有挑战的,由于时间的原因,各个维度的这个具体计算逻辑,就不做进一步的展开了。

image.png2.治理问题的处理优化 – 自动预防(检查项)

接下来看一下事前治理,检查项目的一个具体的功能如何使用,检查项开始之后可以作用在某一个具体空间,可以开启需要使用的这个治理的检查下,然后它可以作用在比如左下角展示的,在这个任务的提交,或者发布的环节能够自动触发这个扫描,图稍微有点不清楚。

image.png

这里举的例子,比如限制需要在 so 代码里面,不允许通过 sql 脚本来创建表,有这样的一个检查项,那么在任务提交阶段的时候,发现这个代码里面有这样的一个创建表的这样一个代码,检查就不会通过,然后这个提交的过程就会被阻塞,而这个提交者把这个问题按照在这个处理磁盘里面。提供了这个指导来进行优化,这样处理以后再进行一下,然后再发布了生产,然后通过这样的一个环节,就能够非常好的去杜绝这个治理问题新的问题的引入。

然后这个内置的模板里面,当前提供了数十种检查项,这些检查项可以开箱即用,然后而且这些检查项随着内部的沉淀和用户的一个反馈,正在丰富中。

image.png

3.按需增加自定义检查项 – 基于开放平台进行扩展

此外,如果觉得这个内置的这些检查项还不足够,还有一个可以基于开放平台经营这个检查项一个自定义拓展能力。data works 开放平台最近全新推出的重磅的一个重要的功能特性,提供了开放接口,开放 pth 以及扩展程序,然后允许基于data works 这个直接开放关系进行深度的一个对接!data works 这个流程进行自定义扩展。

然后要扩展一个自定义检查项,主要会用到开放事件,扩展点,然后扩展程序,然后只要把这个按照指导封装好,进行自定义的检查,然后注册到平台里。就可以跟这些内置的检查项一并使用进行事前的职业问题的一个自动发现和预防拦截。

image.png

4.治理问题的处理优化 – 自动发现(治理项)

对于存量问题,提供治理项,就是自动发现的能力,对于治理问题进行自动的扫描,还要找出需要治理化的问题,提供相应的治理的指南。

image.png

举个例子,下边用的是比如输出为空的治理项,平台里面在启用模版之后,会基于内置的规则,实例规则,把存量的问题自动扫描出来。相应的,提供了相应的问题优化指南,针对这类问题怎么样去做?才能把问题解决。遵循指引,把问题的处理之后,效果在健康分上就能够得到下图的体现。

与检查项类似,也提供了数十种内置的治理项,开箱即用。,在研发、质量、存储、计算等五个维度都有相应的提供,就不主要介绍了。现在总共有43个内置的治理项,所以治理项是非常丰富的,基本上能够满足平时使用的需要。

image.png

5.数据治理的长效运营机制

最后来看看长效运营的机制。前面提到为了避免这个数据治理的工作成为一个运动式的工作,需要这样的一个长效运营的机制。在数据集里的演进中,能看到三个明显的方向,分别从主机,平台和业务三个方向的描述。

image.png

(1)、组织架构

首先,数据治理它不单纯是大数据团队,而一直在搞技术而鉴、评、带这样一个工作,它更多的是一个组织企业当中的问题。跨越以前的单个的技术团队,要到公司整体的架构的设计,比如就是下图左侧展示的,里面有数据平台团队,有业务团队,还有财务,风控等一系列协同团队,这里面就需要成立相应的几个数据委员会,下辖的这个数据处理的一个小组来推荐治理工作去开展。而且它因为设置了这种跨团队,对整个组织来说,一个很头疼的问题就是如何来衡量这个数据治理的一个最终的效果,如何更好的发挥这个组织的主动性。

2)、考核指标

也就是在阿里云内部设置健康分的一个很大的出发点,就是这个考核指标。根据健康分客观的,量化的一个指标去衡量治理一个提升程度,这样的一个治理成效的一个体现。比如对于某一个 built,可以设定今年的目标之一,就是把健康分从70分提升到80分,可以从计算,存储,研发,质量,安全各个方面入手,如果在这过程中有什么需求,就可以统一起点,前面讲到了,这样平台同样大家一起共同,对这个目标功能实现。这些能力也都成立在平台上,这样各个团队就有一个统一的考核指标来带领大家做数据治理工作。

3)、长效运营

同时,也通过一些运营的手段,去推进这个治理的一个落地,比如会去经营数据治理的一些战役,各个团队开展这个数据治理的比武,这样的一些运营工作,通过健康分,不断地做一些延展。达到组织协同的目的,同时发挥在治理上的主动性,对于长效治理来说,基于健康分做了一些事情,然后这一块是非常非常重要的,就是能够把运营治理从运动态的变成可以持续的,可以推进的工作。

 

6.可视化查看治理成效

然后治理成效这一块,作为成本节约,平台上就数据治理中心,可以将这个比如节约的存储,计算的一个资源,风险的预防以及问题修复等等是一系列的数据,非常清晰的量化,展示出来,同时也提供了健康分的一个趋势的展示,去体现健康分提升的一个情况,比如前面讲到的,一个先前设定的目标是从70分提升到80分。通过这个趋势就能看到目标是否得到了有效的达成。

image.png

7. 数据治理的运营管理

在这个数据治理的一个运营管理方面,数据治理中心也着眼于把数据治理从小部分人的工作,转变为有良好的群众基础和参与度的普遍的工作。

首先这个治理排行榜,可以让治理的管理员和普通同学都能清楚的感觉到它所处一个位置,然后让优秀的同学得到表扬,而不足的得到鼓励。

同时它们也面向治理的管理员和普通同学提供了三个不同的视角,全局视角,就整个租户的视角。以及带动工作空间的视角,以及还有个人视角,来清晰了解治理的一个健康水平以及在这个视角下需要关注的来优化的问题。比如个人名下,管理的表和任务等等,它关联的治理问题有哪些,通过个人视角就能很清晰的看到,从而进行放心的优化治理。

image.png

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
11月前
|
API 开发者 UED
HarmonyOS:ArkTS 多态样式自学指南
本文介绍了 ArkTS 多态样式功能,帮助开发者为组件设置不同状态(如点击、按下、禁用等)下的样式。从 API Version 8 开始支持,API Version 11 引入 `attributeModifier` 动态设置属性。核心接口 `stateStyles` 支持多种状态,如 `normal`、`pressed`、`disabled` 等。文章通过示例代码展示了如何为 `Text` 和 `Radio` 组件设置多态样式,结合状态控制实现动态视觉反馈。掌握此功能可提升用户体验,推荐开发者根据需求灵活运用。
415 27
|
网络协议 C++ 网络架构
【革命性升级】OSPFv3 vs OSPFv2:揭秘IPv6时代下的网络协议革新之旅!
【8月更文挑战第22天】OSPFv2与OSPFv3分别是用于IPv4和IPv6网络的路由协议。OSPFv2绑定于32位IPv4地址,而OSPFv3支持128位IPv6地址并具备地址独立性,LSA不再包含具体IPv6地址。OSPFv3引入多实例能力,可在同一接口上运行多个实例,支持多种IPv6地址族。邻居发现机制方面,OSPFv3使用NDP而非ARP。此外,OSPFv3支持更细粒度的路由聚合。这些改进使OSPFv3更适应当今网络需求。
476 1
|
机器学习/深度学习 计算机视觉
YOLOv11改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
YOLOv11改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
1215 0
YOLOv11改进策略【卷积层】| CVPR-2023 部分卷积 PConv 轻量化卷积,降低内存占用
|
机器学习/深度学习 传感器 自然语言处理
【博士每天一篇文献-综述】A Systematic Review of Echo State Networks from Design to Application
本文系统回顾了回声状态网络(ESN)从设计到应用的全过程,探讨了其在多个领域的实际应用,并分析了不同结构的ESN模型如经典ESN、DeepESN和组合模型的性能,以及它们在时间序列预测和动态系统建模中的有效性。
373 1
【博士每天一篇文献-综述】A Systematic Review of Echo State Networks from Design to Application
【R语言实战】——fGARCH包在金融时序上的模拟应用
【R语言实战】——fGARCH包在金融时序上的模拟应用
|
存储 SQL JSON
离线数仓(五)【数据仓库建模】(2)
离线数仓(五)【数据仓库建模】
|
JSON 自然语言处理 API
国王小组:开发数字货币交易所轻松实现加密货币交易所的API
细丨数字货币交易所开发成品技术源码 合约交易系统设计与开发|永续合约交易所搭建,合约平台开发|永续合约交易所开发技术|特点介绍 秒合约交易所开发详细丨秒合约交易所系统开发详细及规则丨秒合约交易所系统源码部署 海外版数字货币交易所系统开发(逻辑及功能)丨多语言数字货币交易所系统开发(案例及源码) 交易所开发成品丨交易所系统开发(演示版)丨交易所APP源码设计 区块链交易所开发详细丨区块链交易所系统开发(开发方案)丨区块链交易所源码案例部署 数字货币交易所开发详情版丨数字货币交易所系统开发(web3.0技术开发)丨数字货币交易所开发源码成品 交易所APP开发功能丨交易所系统开发(成熟及案例)丨交易
|
存储 弹性计算 网络协议
阿里云服务器ECS计算型c7实例详解_网络PPS_云盘IOPS性能参数
阿里云ECS计算型c7实例,基于三代神龙架构,采用Intel Ice Lake CPU,2.7 GHz基频,3.5 GHz全核睿频,提供高性能计算、存储和网络能力。支持vTPM和Enclave特性,适用于高网络负载、游戏、数据分析等场景。实例规格从2核4GB至128核256GB,最大网络收发包可达2400万PPS。详细规格及性能参数见官方页面。
533 1
|
存储 分布式计算 DataWorks
阿里云云原生一体化数仓 — 数据治理新能力解读
本文介绍大数据开发治理平台DataWorks在数据治理领域的最新产品进展,包括基于事前、事中、事后的全链路理念构建的核心产品功能和数据治理量化评估机制解读,以及围绕降本增效的成本治理最佳实践。
4391 0
阿里云云原生一体化数仓 — 数据治理新能力解读
|
关系型数据库 MySQL
mysql下载源码方法
方法一 进入mysql官网:http://dev.mysql.com/downloads/mysql/ 选择相关的平台下载:     3.选择Source Code 选型后,拉倒网页下方,选择要下载的源码包         4.
15026 2