DataWorks数据治理介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 当我们在谈论数据治理时,经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时,参考的主要也是数据管理领域内的三大理论依据:第一个是数据管理协会知识体系,也就是大家熟知的DAMA、DMBOK2;第二个是DCMM数据管理能力成熟度评估;第三个是信通院的数据资产管理实践白皮书。

作者:DataWorks产品经理 唐晨


一、数据治理的概念、需求层次和目标

(一)对于数据治理概念的一些基本理解

当我们在谈论数据治理时,经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时,参考的主要也是数据管理领域内的三大理论依据:第一个是数据管理协会知识体系,也就是大家熟知的DAMA、DMBOK2;第二个是DCMM数据管理能力成熟度评估;第三个是信通院的数据资产管理实践白皮书。

幻灯片5.PNG

从左右这两张图对比可以看出,DMBOK和DCMM对于数据管理和数据治理的范围和定义是略微有区别的。DMBOK将数据管理划分为十大职能领域,数据治理位于最中间的位置,用于串联其十大职能领域。而DCMM将数据管理定成八大过程域,数据治理是和数据质量、数据安全并列的过程域之一。显然,业界不同的组织和群体对于数据管理和数据治理概念的理解会存在一些出入。


DAMS有这样的一个描述:在数据管理过程中,要保证一个组织已经将数据转换成有用的信息,这项工作所需要的流程和工具就是数据治理的工作。这里强调两个概念:第一,数据治理是数据管理的一部分;第二,数据治理的核心是流程和与之配套的工具的保障。DataWorks也是参考了这个定义,聚焦于保障与数据资产化配套的数据治理方面的需求来设计产品能力。当然产品能力建设也是一个逐步的过程,DataWorks的功能也在持续扩展中。


根据数据治理的需求,结合在阿里巴巴内部数据治理的实践过程,以及跟外部许多客户和同行的交流,我们发现企业的数字化转型阶段不同,数据治理方面的核心需求是存在差异的。抽象来看,数据治理的需求可以分为五个层次:第一层是时效性,指的是数据产出的及时性要求; 第二层是质量,数据的质量管控,治理覆盖数据的完备性,正确性,准确性等; 第三层是数据的可用,这里主要强调的是数据的共享使用,易查找,好理解,或可复用;第四层是数据安全方面的要求,比如说数据权限的申请和审批,流程的管控,敏感数据的识别和保护,以及合规性要求;第五层是数据的生产、存储和使用的成本优化控制。

幻灯片7.PNG

这五个层次的需求,越下面的需求相对来说越基础,需要优先满足。但随着企业数字化转型过程的加深,上层的需求就会逐步地体现出来。阿里内部也是这样的过程,在十多年前最开始的阶段,阿里优先关注的是数据任务的运行稳定,数据能及时产出,数据是正确的、可用的。当这些需求被很好地满足和保障之后,现阶段阿里内部数据治理最关注的是金字塔顶端的需求,也就是成本的考量。


当然,这五个需求层次,并不是必须逐层演进的。在一个阶段,企业很大可能会同时有不同层次的需求,只是相对而言,它关注的需求重点会有所不同。


这五个需求层级实际上也就定义出了数据治理的一个核心目标,就是企业数字化转型要最大程度地将数据资产化,来挖掘出数据的价值。在这个过程中,要满足产出的及时性,质量可靠,数据易找易用,数据安全可控以及生产经济这五个方面的要求。  


在数据治理的实施策略上来说,有自下而上和自上而下两种方式。这两种方式相结合的方式在阿里内部实践验证后更行之有效。顶层用来解决全局的数据规划和组织建设,以及制度制定这些问题,为治理提供上层的赋权;而下层聚焦于核心业务流程的梳理、平台工具和运营体系的构建,为数据治理落地提供支撑。

幻灯片8.PNG

通过自上而下和自下而上密切的结合,随后循环的演进,来进行数据治理的推动。而数据治理的需求分层,也为数据治理给出了一个启示,我们可以整体去规划数据治理的蓝图,但是需要分阶段去实施。在特定阶段,企业数据治理的诉求重点是有所区别的,建议结合企业的实际情况,关注重点层次的诉求,逐步迭代演进。


二、 阿里巴巴内部数据治理实践

有两个关键词:EB 级; 千万级任务/天。这是阿里内部数据的现状,总的数据存储已经到达了数EB这个级别,每天离线数据处理的任务超过了千万,而且这两个数字在以很大的增幅增加,这背后是极大的存储和计算成本的开销。因此,阿里巴巴现阶段数据治理的核心诉求已经演进到金字塔的顶端,也就是关注成本的阶段,通过数据治理

的工作,阿里巴巴每年可以做到节省10个亿的成本,这是一个非常了不起的成就。在阿里内部,数据治理的工作能够有效的落地下来,有四个方面的因素:组织建设、制度保障、平台技术、运营落地。


(一)组织建设

阿里巴巴成立了全集团层面的数据治理工作组,这个组织是直接挂靠在阿里巴巴内部的一级组织——阿里巴巴数字经济体数据专业委员会。工作组成员主要有独立的数据资产管理团队,这个是独立于各个BU存在的,还有各个BU的数据治理责任人,以及数据平台的负责人。这个组织的核心工作有: 制定集团的规范,确定治理的目标,推进治理的落地,以及保持最终的存储和计算的健康程度。数据治理工作组有一个很重要的权力:对各个BU数据生产预算高低的直接影响权。每个BU能拿到的年度预算多少与上年度数据治理的目标达成程度是密切挂钩的。数据治理工作组在预算制定上的话语权,也是保障治理工作能够推进的一个决定性因素。


(二)制度保障

在制度保障方面,阿里巴巴制定了一个集团全局的数据资产治理规范,主要是用来进行责权的明确,细化每个主体的责任和权利。同时也制定数据治理的分项工作细则,比如数据模型架构规范,数据研发规范,数据质量保障原则,数据安全的管理指南。


(三)平台技术

在平台工具上面,阿里巴巴的数据中台,离线数据加工的部分,都是基于MaxCompute和DataWorks来构建的。MaxCompute是阿里完全自研、全托管的EB级大数据存储和计算引擎,它提供了海量数据的存储和计算服务。DataWorks可以说是MaxCompute的一个操作系统,它基于MaxCompute的底座能力,提供了数据集成,数据开发,数据地图,数据质量,数据安全和数据服务等全方位的产品服务。这两个平台的密切配合才能为数据治理落地提供强有力的平台支撑。


(四)运营落地

运营落地方面采取的措施有三种:一是每周定期的资源消耗账单会发送给资源的使用者,让他清楚地了解自己对于资源的使用情况;二是定期的专项治理活动,会针对性地集中来进行优化整治;三是治理的红黑榜排行,用红黑榜在全集团公布的方式来推动整个治理的实施。


这里的重点是,一定要把治理的工作给量化出来,用数据说话。红黑榜中一个核心参照指标是存储和计算的健康度评价,也就是健康分。当健康分很低的时候,会有对应的约束手段,比如开发环境对于资源使用会受到限制、不能提交任务运行,除非责任人完成相应的治理工作、提升健康分满足要求。


三、DataWorks数据治理平台能力

下图是Gartner2020年十大数据和分析趋势图,有两个启示:

幻灯片16.PNG

第一,随着技术的引进,新的趋势和新的需求会层出不穷,但这些趋势之间又有着或多或少相互的关联性,因此构建一个统一的数据平台来避免重复性的工作、提高扩展性变得十分必要。


第二,要做增强型数据管理,在数据平台中需要通过机器学习和人工智能技术的引入,提供更强大,更便捷的功能来解放平台的使用者,让他们能够专注于其他重要的工作。


DataWorks产品设计的理念与这两个启示不谋而合。在数据治理的部分,DataWorks引入了较多的算法技术,能够更好地辅助用户来使用平台。有很多人会问,做数据治理的核心是不是去治理人?把人管好了,数据治理就落地了。但是在DataWorks看来,治理的对象是数据和产出数据的任务这两个客观实体,并不是去治理人。DataWorks追求的是基于数据来治理数据的思路、通过这个平台的产品能力来服务好平台使用者,辅助推进数据治理的有效落地。基于这个理念,DataWorks提供了任务运维,数据安全,数据资产管理,资源优化等一系列的产品功能模块。


接下来会围绕数据治理的几个需求层次,结合对应的产品模块进行介绍。


(一)时效性 – 运维中心和智能监控

数据治理的第一个需求层次就是数据产出的时效性要求,在这个方面推荐大家使用的核心产品模块是运维中心的智能监控功能,即由DataWorks独创、荣获国家专利的基线监控技术,也是阿里内部大量使用,保障双十一大促在内的业务数据生产稳定性和时效性的核心功能之一。在运维中心中,DataWorks提供了离线和实时任务的丰富运维操作,比如失败任务批量重跑,历史任务的补数据运行,以及运维诊断的功能,可以极大地节约任务运维的时间成本。


另外一个引起任务产出延迟的常见原因是资源的争抢。对于高时效性要求的保障任务,建议用户把这些调度任务分配到独享资源组上来。而如果是引擎层面的制约引起的任务延迟,则可以增大MaxCompute计算资源的配额上限。


(二)质量 – 数据质量

DataWorks提供的数据质量模块能够良好地满足对数据产出的正确性、完整性的验证要求。在前面数据质量模块的介绍部分对于其功能已经有非常详细的介绍,这里强调两个关键点:第一,DataWorks支持配置动态阈值规则和规则的自动推荐,这也是引入了AI和算法价值的特色功能;第二,质量的监控与任务的调度是强挂钩的,可以设计一种强报警规则来阻塞任务的调度运行,如果出现质量问题,就让这个调度暂停下来,然后发送报警给节点Owner来及时处置,这样可以防止质量问题的大范围扩散。


(三)可用性 – 数据地图

在数据的可用性、复用性这一层次,DataWorks提供的是数据地图这一模块。下图展示了数据地图功能模块的功能。

幻灯片23.PNG

第一,数据发现。数据地图里面目前支持了13种数据源的元数据采集和数据目录构建。

第二,全局检索能力。可以让用户通过表、字段、描述等多个元素来快速检索表。

第三,元数据详情。表的基础元模型、字段名称、字段类型等Schema详情、数据的产出情况、数据使用的记录以及数据使用的热度等,这些信息在元数据详情里面都有展示。

第四,数据血缘&影响分析。数据血缘是数据地图提供的特色功能,能够清晰的展现出这个表上下游之间的血缘关系,包括跨不同数据源之间的血缘关系的展示。举个例子,把RDS业务库里面的数据同步到MaxCompute来做数据处理加工,加工完之后再回到业务库里去,这个过程链路在数据地图中都会清晰地展现出来。这个功能可以很方便地让用户去了解数据处理的来龙去脉。在血缘基础上提供了影响分析功能,比如如果需要去修订数据的口径,基于这个能力,也能很方便地找出这个改动可能影响的下游是哪些,评估改动的影响面,以及通知下游做相应的改造。

第五,数据预览&数据探查。数据地图里的数据预览能够对少量的样本数据进行抽样预览,方便用户快速了解里面的数据具体是什么取值。数据探查的功能主要提供对数据做统计指标的分析,便于用户洞察数据的分布情况,比如数据的最大最小值,空值率等。

第六,数据类目。用户可以利用数据类目功能来对数据进行分门别类的管理。比如可以按数仓分层、按照组织的业务或者架构划分,把表有序地管理起来。基于数据类目的划分,在地图里可以非常方便地通过类目导航找到这个类目下挂载的表,这样也能极大地提升找表的效率。


这一系列的数据查找和理解的功能,最终的目标是提升数据的查找、使用效率,让数据被更多地复用起来,提升数据复用率来降低数据重复生产和存储的成本。


(四)数据安全 - 安全中心和数据保护伞

幻灯片24.PNG

在数据安全方面,DataWorks提供了安全中心和数据保护伞这两个功能模块。安全中心主要用来处理表权限的申请、审批和审计。数据保护伞提供了金融级别的敏感数据识别保护能力,包括风险的识别和预警、数据风险的审计以及数据脱敏的功能。这些功能与其他功能模块有非常密切的联动,比如敏感数据保护在数据开发的查询结果页面和数据地图的数据预览页面都可以设计应用上数据脱敏的能力,防止敏感数据的泄露。


(五)成本 – 全局数据资产盘点和数据资源优化

在企业数据量的规模或是数据生产任务数量达到一定的程度之后,对于成本的诉求就变得愈发强烈。因此,DataWorks推出了全局的数据资产盘点和数据资源优化的功能模块,能够支持用户便捷地进行整个组织的资产盘点,查看数据资产的总量,趋势,以及分布情况,基于数据治理的思路,通过对计算引擎和平台全方位的元数据的智能分析,DataWorks会给出同步任务、计算和存储三个维度的具体优化建议。


比如某个表设置了一个很长的生命周期但是并未使用,或者是某个数据的SQL写的不太好,存在全表暴力扫描的情况,这些情况都会带来额外的资源浪费。DataWorks会把这些情况分析出来、形成治理项,并给出相应的优化建议,辅助责任人进行相应的优化。


DataWorks数据治理背后的幕后英雄,也就是具有极致弹性、极致灵活和稳定、业界领先架构方案的MaxCompute引擎。MaxCompute在存储和计算上的技术创新、演进和优化改进,是阿里内部能够达到每年10亿规模的成本优化的主要原因。在公共云上,阿里巴巴内部业务打磨出来的技术红利也对外进行了输出,比如单位数量的数据计算和存储成本是在逐年下降,单个SQL运行的资源消耗也是在逐步降低,通过技术进步来辅助大家进行成本节约。


MaxCompute新近在资源使用模式上也推出了一系列创新,比如包年包月、按时段设置配额组以及按量付费和包年包月混用的模式,都是出于帮大家节约成本的考虑。


对于深度使用了MaxCompute的用户,对MaxCompute的稳定性应该是印象非常深刻的。运维成本实际上是一个极大的成本,尤其离线处理任务是集中在夜间生产的,如果生产平台不稳定的话,夜间运维的工作是非常消耗人力的,这也是一个非常大的隐性成本。MaxCompute引擎的稳定性,对比开源自建的方案来说有非常大的优势。


MaxCompute和DataWorks的组合提供了极为完整、丰富的产品能力,也是阿里内部自己在真正使用的方案,经过了十多年的真实业务的检验。


四、 产品最新进展

这一部分会介绍DataWorks近半年来在产品功能上的最新进展。首先,DataWorks推出了全新改版的数据综合治理,在新版本中,通过对数据生产,数据使用,和数据管理三个视角的抽象,能够让用户更聚焦地关注和使用不同视角下所需要使用的产品功能。在这个新版本中,DataWorks提供了一系列新的产品能力,下图是一个汇总的介绍。

幻灯片29.PNG元数据管理方面,DataWorks数据地图中支持了对MaxCompute、E-MapReduce、MC-Hologres、ADB、RDS等云上13种最常用数据存储的元数据采集,并基于这个基础构建出了异构数据血缘大图。在数据安全方面,DataWorks提供了最新的数据泄露溯源功能和基于区块链的数据流转安全产品。在运维监控方面新增了移动运维的能力,即用户可以在手机上灵活处理告警,能极大节省夜间运维的时间,同时还新提供了电话告警的能力。


DataWorks也会发布稳定性治理,PDCA机制,治理闭环这一产品能力,同时,作为阿里巴巴最佳实践的健康分这一评估机制,开发团队也在计划对外输出。在开放性方面,DataWorks新近提供了全套的开放API、开放数据和开放消息,支持用户基于DataWorks的元数据信息来进行自定义数据治理的工作。


在生态合作方面,DataWorks也特别注重与行业领域里的一些非常优秀的合作伙伴来一起进行合作共建,输出联合解决方案。接下来重点介绍两个方案:


第一个是DataWorks和Datablau合作提供的数据中台模型管理平台这样一个联合解决方案。第二个是DataWorks和御数坊DGOffice提供的一体化数据治理解决方案,会以咨询加产品的模式为客户提供全站式的咨询服务,面向数据全生命周期展开全方位的治理工作。DGOffice在很多行业里面沉淀了非常丰富的数据治理行业经验,数据治理是有非常强的行业属性的,因此在这里DGOffice为DataWorks提供了一个非常互补的组合能力。


五、总结

最后对数据治理内容做一个概要总结:

一、数据治理是数据管理的一个核心组成部分,是数据管理过程中的流程和工具的一个支撑。

二、企业在数字化转型的不同阶段,对数据治理的需求层次是有区别的,共有五个需求层次。

三、需要一个统一的开发和治理平台来减少重复工作,提高扩展性。

四、数据治理治理的对象是数据和产出数据的任务,DataWorks的核心理念是基于数据来进行数据治理工作,用工具和平台能力服务好使用者,来推动数据治理的落地。

五、平台和引擎的技术演进,尤其是MaxCompute这个底层引擎技术的演进,是数据治理落地的一个催化剂,底层引擎的优化工作,对于成本优化是有着关键性的影响。

六、DataWorks提供了极好的开放性,如果大家有自定义数据治理方面的需求,可以通过DataWorks 的开放API、开放数据和开放消息来获取相应的数据进行自定义治理。


如果有咨询方面的诉求,DataWorks和御数坊的合作伙伴一起也能够提供联合的解决方案,可以提供从咨询到落地的全方位服务。

数据质量介绍及实践请参考:https://developer.aliyun.com/learning/course/81/detail/1237


DataWorks官网:https://www.aliyun.com/product/bigdata/ide

大数据&AI体验馆:https://workbench.data.aliyun.com/experience.htm


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks常见问题之dataworks100g大小的csv文件上传到odps失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL DataWorks 关系型数据库
DataWorks报错问题之写入数据时报‘http.client.ResponseNotReady’如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
消息中间件 分布式计算 DataWorks
DataWorks常见问题之查看数据地图模块总的存储大小失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
在DataWorks中,将MaxCompute的表映射成Hologres(Holo)外部表的语句
【2月更文挑战第32天】在DataWorks中,将MaxCompute的表映射成Hologres(Holo)外部表的语句
23 1
|
1月前
|
DataWorks 监控 数据可视化
|
1月前
|
分布式计算 DataWorks API
DataWorks常见问题之按指定条件物理删除OTS中的数据失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之dataworks连接FTP服务器失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之dataworks自定义函数运行时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
SQL DataWorks 关系型数据库
DataWorks常见问题之dataworks同步Rds任务失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。

相关产品

  • 大数据开发治理平台 DataWorks