数据治理新能力解读| 学习笔记(一)

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 快速学习数据治理新能力解读

开发者学堂课程【云原生一体化数仓新能力解读课程数据治理新能力解读】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1193/detail/18112


数据治理新能力解读

 

内容介绍:

一、数据治理中心产品简介

二、数据治理中心产品细部介绍

三、成本优化治理最佳实践

四、未来规划

 

本课程对数据治理的一些新能力做一个解读。数据治理领域,研究内容非常广泛,本次的分享主要是基于阿里巴巴内部的一些实践,以及进行配套的产品能力建设这个过程中的思考,做一个探讨,抛砖引玉。分享内容包含三个部分,DataWorks 数据治理中心产品模块的简介,二是成本优化治理的一些最佳实践,第三,数据治理中心未来的一些规划。

 

一、数据治理中心产品简介


1. DataWorks 产品架构大图

接下来先介绍数据治理中心产品模块,首先看一下 DataWorksS 产品架构大图。熟悉 DATAWORKS 的朋友们都知道,DataWorks定位于一站式的大数据开发与治理平台。这张图从下往上看。

image.png

DataWorks REMIX COMPUTER HOLOGRES 等一系大数据引擎紧密配合,在数据的采、鉴、管、用这四个关键环节提供了丰富的产品功能,也是阿里巴巴内部构建数据中台的核心平台产品。支撑了电商新零售,广告营收,北京生活,智慧物流,企业智能管理等几乎全部业务板块的数字化工作的需要。所以随着数据建设的深入,越发意识到数据治理是一个数据资产化建设加速的希望,不可或缺的关键工作。

在阿里内部,提出了构建数据质量可靠,安全稳定,生产经济,消费便捷的数据资产体系这个目标,并且围绕这个目标来开展属于治理的工作,构建对应的产品能力,来进行支撑,比如这张图里面体现的数据质量,数据资产地图,数据安全,数据治理中心等等。都是围绕这个能力进行的建设。

时间有限,这些模块不逐一展开介绍,重点看一下数据治理中心,在数据治理领域,最近在公共云下全新推出的一个产品模块。

 

2.企业数据治理实施的行业痛点

很多企业都开展数据治理的工作,数据治理的几个典型的痛点总结下来,主要体现了以下四个方面。

image.png

1)、数据治理入手难

第一个是数据治理的入手很难,数据治理的目标和执行路径不清晰。而在数据治理领域,大家通常为参考DUMBER或者DCMM理论体系。可以发现,数据治理的范畴涵盖内容范围极为广泛,比如 DUMBER 里面定义的是它过程语等等,从哪里开始入手?以什么样的一条路来推进?这个是企业进行数据治理工作,首先要回答一个具体的问题。

2)、规范落地难

第二规范落地的一个问题,数据治理落地很难。公司无人从事主机化的编写,一些编写是请专业的咨询机构,构建出数据治理咨询方案以后,产出了一系列的规范和管理办法。而这些往往只停留在纸面,因为没有足够的治理平台工具来支撑落地。只能做到“我有”,但做不到“我执行”,这是第二个典型的挑战。

3)、数据治理成效可视化不足

第三个数据治理它的成效的可视化不足。如何客观评估治理的一个程度,如何将治理的一个成效给量化,可视化出来?这个工作没有做好推进难度会显著的加大。

4)、数据治理的工作不持续

最后数据治理的工作的持续性问题,通常的做法是一个运动式的执行,在一段时间内能看到的效果,但是如果不融入到日常的数据开发生产链路中去治理,就会变得不可持续,不能长久的,从根本性来解决问题。

 

3.阿里巴巴实践的数据治理体系

这些痛点,阿里巴巴内部开展数据治理工作的时候,也同样经历过。那么阿里如何比较好的回答并解决这个问题的?在质量管理,元数据管理,数据安全管理等传统的处理领域之外,创新的构建了如下的一套治理体系。

image.png

1)、治理体系

从存储,计算,质量,安全数,据模型或者数据研发,以及成本等多个维度进行治理的切入。采用了统一的方法和策略,并使用统一的一个治理平台工具来承接落地,取得了显著的一个成就!

2)、方法和策略

方法和策略,这部分适当展开做一个介绍。在数据治理里中,明确治理的核心对象,一定要做相关的任务和表。采取了一个实时路径,现状分析问题的定位,进行优化,在最后进行效果评估,这样的一个闭环。

3)、治理的核心

在治理的核心落在是量化上面。将问题给量化,将程序给量化,并且基于局部的明细给,出这个全局的一个决策建议。比如位权极端的一个资源调配和部门的这个预算的制定,成本优化目标的设定等等,提供参考。

还有一点治理的关键前提是对这个表和任务,这些资本对象的一个确定归属。去梳理出对象的具体的负责人,来确保这个对象相关联的问题有着落,有跟进,通过具体到人,进而可以汇聚到部门。然后进而在汇聚全集团一个整体。

4)、成效

上面也提到了通过一个统一的平台工具来承接治理的工作。也能够极大的提高治理的效率,通过这套治理体系的落地,在集团内部取得一个非常显著的成效,每年可以解决的这个成本问题,节约的成本可以达到数亿元,这个效果还是非常明显的。

 

4. DataWorks数据治理中心  概述

image.png

1)、原理

而现在,把这套在阿里内部实践多年,并且证明行之有效的方法和能力,通过产品的方式在云上提供服务,下图这就是数据治理中心一个全新的产品模块。所以治理中心盖要说,是基于治理问题驱动,构建了一个治理的量化评估,然后问题的发现和预防,到最后治理问题的优化处理,这样的一个闭环提升运转机制。提供的指导培训的产品功能。

这里要概要说明一下,强调的是事前预防和事后治理相结合的方式,治理的这个事前,事后的事,定义为数据平台ATO作业,正式数据生产这样的环节。在正式生产之前呢?定义为事前。在正式生产之后的定义为事后。

2)、核心功能特性

首先,数据治理中心,通过检查项目功能,可以做到在任务提交发布灯光节环节,就是这些事前的环节,对于这个作业的代码,它的质量,它的性能消耗,进行自动扫描和检查卡点,来预防新的问题的引入。

其次,面临的一个现实问题是,数据仓数据中层的建设可能已经进行了较长的时间,会存在许多存量的问题,需要去优化治理,在数据治理中心里面的治理项功能,就是位置来设计的。同样的,这个也是全自动方式,可以自动发现系统中需要优化治理的问题,并给出对应的解决方案。而关于检查项和治理项的一个详细功能介绍,后面会举例子来说明。

治理中心里面最具特色的,或者是阿里内部数据治理实践的一个特色,就是量化评估的机制,称之为健康分。而这样的一个概念,从存储,计算,质量,安全,研发五个基础的维度进行健康分的一个量化评估,进而可以给出整体的一个健康的评估,便于这个治理工作实施前了解现状,同时也为治理事后的一个成效而提供了一个系统的参考!

最后,处理中心在成本的优化治理方面,也提供了资源使用分析的产品功能。可以帮助清晰的了解每个任务,每张表,这个是力度的一个资源消耗费用评估,以及资源的异动等等情况,帮助有针对性的进行存储和计算的一个资源优化质量,来达到一个资源使用的降本增效的一个目标。

 

5. DATAWORKS数据治理中心 产品架构全图

接下来看一下数据处理中心的一个产品价格导图,数据治理中心,它本质上是一款由数据驱动的数据应用产品,概要可以分为数据层,应用层,审核层,管理运营层,这几层。这个数据层是数据治理中心的一个基础,它汇聚了任务,表,模型,数据服务API等一系列对象的这个元素与信息,并构建用以分析洞察的这个元素仓来支撑上层的治理应用。

1)、自动预防、发现、修复

在治理应用层,这个是数据治理中心的一个主体功能所在!首先会基于内置的一个模板,方案模板,提供上面讲到的用事前的一个问题的一个自动预防,事后陈酿问题的自动发现,这样的检查项和治理项的一系列的功能,以及对应的一个处理优化指南的一个功能!资源使用分析,是面向这个成本进行构建一个产品能力。包含资源使用明细和应用分析,刚才有提到以及在规划中的资源的治理优化的一个建议。

2)、对象360

对象360使用会去展示对象的全景信息,尤其是这个对象,它需要治理优化的问题,直接关联的问题是什么样子的,已知它的这个处理方式是什么样子的,并且可以全生命周期追踪这些对象的事前情况,这个问题什么时候出现?做了什么操作?什么时候这个问题得到了一个优化解决。能够全体的展现出来。

3)、标签体系

这个标签体系是作为一个额外支撑方式提供出来的,便于有效的对这个任务和表进行类型的打标区分,然后,基于这些标签进行集中的治理,可能某些业务上有一个具体标签,可以框出相关的任务和表,然后进行针对性的治理。

4)、场景化治理

场景化治理,这里是基于这个 PDCA 的理念来构建的,来帮助大家按照业务需要来圈选几个对象,刚才讲到的标签也是一个圈选对象的关系,用不同的方式来圈选出来这个对象,评估这个治理的现状,进而可以去设定这里的目标,并且有效的监督这个治理实施的一个进度,最终达成一个治理目标的最终落地。当然这个能力,现在还没有对外输出,后续会跟这个标签能力一并发布,而这一块请大家稍微等待一下,可以期待。

而数据治理中心,它核心服务于两大类的一个应用群体,第一类是数据治理的管理员,以及这个数据治理的具体参与的一线同学两类应用群体。所以在管理运营层,提供了治理评估报告,治理健康分,治理排行榜和治理运营配送等一系列的功能,来满足使用的需要。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
存储 安全
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——一、数据建设与治理的现状与诉求
159 0
|
数据建模 供应链 定位技术
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——2. 规划:高屋建瓴,总览企业数据体系
242 0
|
运维 分布式计算 监控
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——1. 用中台方法论构建与治理企业级好数据概览
508 0
|
分布式计算 DataWorks 对象存储
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。
1521 1
|
数据采集 SQL 机器学习/深度学习
DawnSql在数据治理中的优势
DawnSql数据治理平台的优势。1、降低成本 DawnSql 既是分布式数据库,也是离线数仓,也是实时数仓 DawnSql 既支持标准 Sql,也支持 NoSql,还支持自己定义的语言 DawnSql 是分布式缓存,支持对数学的实时反馈,提升业务对实时数据的价值 DawnSql 是分布式的服务平台,可以支持服务的负载均衡和故障转移 DawnSql 支持机器学习和扩展其方法 结论:DawnSql = 传统大数据平台 + MPP平台 + 微服务框架。
DawnSql在数据治理中的优势
|
运维 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(8)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(8)
131 0
|
数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(6)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(6)
141 0
|
数据建模 定位技术
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(5)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(5)
128 0
|
DataWorks 数据可视化 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
123 0
|
存储 运维 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)
145 0