DataWorks 数据治理介绍和实践 | 学习笔记

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
数据安全中心,免费版
简介: 快速学习 DataWorks 数据治理介绍和实践,介绍了 DataWorks 数据治理介绍和实践系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【一站式大数据开发治理平台 DataWorks 初级课程DataWorks 数据治理介绍和实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/763/detail/13364


DataWorks 数据治理介绍和实践


内容介

一、数据治理概念、需求层次和目标

二、阿里巴巴数据治理实践

三、 DataWorks 数据治理平台能力

四、产品最新进展

五、总结


DataWorks 数据治理介绍及实践,会向大家简单介绍 DataWorks 在数据治理方面的平台能力和产品设置背后的一些思考。分享的内容分为四个部分:第一部分,对数据治理的一些理解;第二部分,阿里巴巴内部数据治理的实践;第三部分, DataWorks 数据治理平台能力;第四部分, DataWorks 产品在数据治理方面最新的产品进展。


一、数据治理概念、需求层次和目标

1、数据管理&数据治理理论参考

首先,介绍一下对数据治理概念的一些基本理解。当谈论数据治理时经常会和数据管理这个概念一起讨论, DataWorks 涉及数据治理产品功能,参考的主要也是数据管理领域的三大理论依据:

第一个是数据管理协会知识体系,即大家熟知的 DAMA-DMBOK2 。第二个是 DCMM :数据管理能力成熟度评估。

第三个是信通院:数据资产管理实践白皮书4.0版。

从左右两张图对比可以看出, DMBOK2 和 DCMM 对于数据管理和数据治理的范围和定义是略微有区别的。 DMBOK2 将数据管理划分为十大职能领域,数据治理处于最中间的位置,用于串联十大职能领域。但是在 DCMM 中,将数据管理定义为八大过程域,数据治理是和数据质量,数据安全并列的过程域之一。从这里可以看出,不同的组织和群体对于数据管理和数据治理的概念理解会存在一些出入。

image.png

2、数据治理:概念和内涵

在数据管理过程中,要保证一个组织已经将数据转化成有用信息,这项工作所需要的流程和工具就是数据治理的工作。这句话清晰地强调了两个概念:

第一,数据治理是数据管理的一部分。

第二,数据治理的核心是流程和与之配套工具的保障。

DataWorks 也是参考了上述定义聚焦于保障,将数据资产化的一个配套的数据治理方面的需求来设置产品能力。当然,建设也是一个逐步的过程,现阶段我们没有完全应对覆盖 DMBOK2 中十大职能领域的要求。比如,里面的数据管理, DataWorks 目前是没有提供的。

3、数据治理:“玛格罗需求层次”

刚才有提到数据治理的需求,之后在阿里巴巴内部数据治理的实践过程及和外部的许多客户、同行交流时,总结出了一个现象和结论:企业数字化转型阶段的不同,数据治理关注的核心需求存在差异。

抽象来看,数据治理的需求可以分为五个层次:

(1)时效性,指的是数据产出的及时性要求。

(2)质量,即数据质量管控完备性,正确性,准确性等。

(3)数据的可用,主要强调数据的共享使用,易查找、好理解、可复用。

(4)数据安全方面的要求,即数据权限的申请和审批、流程的管控、敏感数据识别和保护、合规性要求。

(5)数据的成本,即生产、存储、使用的成本优化控制。

在五个层次需求当中,越往下的需求越基础,需要优先满足,但是随着企业数字化转型过程的加深,越上层的需求就会逐步体现出来。在阿里内部也是这样的一个过程,十多年前,即最开始的阶段是优先关注数据任务不要挂;数据能够及时产出;数据是正确的,可用的。在这些需求被良好的满足和保障之后,现阶段,阿里内部数据治理最关注的是金字塔的顶端需求,即成本的考量,之后会在后面的环节展开介绍。这五个层次需求并不是要完全互斥,一定是逐成演进的。在一个阶段,企业很大可能会有不同层次的需求,只是相对而言,他关注的需求重点会有所侧重。

4、数据治理:核心目标和实施策略

五个需求层级实际上就定义了数据治理的核心目标:企业转型要最大程度的将数据资产化,挖掘出数据的价值;在这个过程中,要满足产出的及时性,质量可靠、数据易找易用、数据的安全可控和生产经济五个方面的要求。在数据治理的实施策略方面,有自上而下和自下而上的两种方式的聚焦讨论,我比较赞同的是业界知名的大兵-王兵老师,在他分享中多次强调的两种方式相结合的一个策略。顶层是用来解决全局的数据规划、组织建设以及制度支持等问题为支点提供上层的一个赋权;在下层,聚焦于核心业务梳理、平台工具和运营体系的构建,为数据治理提供自身自上而下和自下而上密切的结合,循环演进,来进行数据治理的一个推动。

image.png

前一页讲到的需求分层也为数据治理给出指示,可以去整体规划数据治理的蓝图,但是需要分阶段去实施。因为在某一个阶段,企业数据治理的诉求和重点是有所区别的;不要在刚起步的阶段就追求既要又要还要,我们建议结合企业的实际情况,关注重点的层次,逐步迭代进行演进。


二、阿里巴巴数据治理实践

1、阿里巴巴数据治理:挑战、成效和落地要素

两个关键词: EB 级、千万任务/天。

这是阿里内部数据的一个现状,总的数据存储达到了数 EB 级,每天离线数据处理任务超过了千万;并且这两个数字以很大的增幅在增加,它的背后是一个极大的存储和制作成本的开销,所以阿里巴巴现阶段数据治理的一个核心诉求已经演进到金字塔的最顶端,即成本的关注阶段,作为前提也需要其他四个阶段的需求得到很好的满足。

10亿元/年,是治理的一个成效,每年可以做到节省十个亿这样的成本节约。

在阿里内部数据治理的工作能够有效的落实下来,有四个方面的因素:第一是组织建设;

第二是制度保障;

第三是平台技术;

第四是运营落地。

2、阿里巴巴数据治理:组织建设

在组织建设上,成立了直观层面的数据治理工作组,是直接挂靠在阿里巴巴内部的一级组织-阿里巴巴数字经济体数据专业委员会之下的;工作组的成员主要是有:独立的数据资产管理团队(是独立于个个 BU 存在的)、 BU 数据治理责任人、数据平台负责人。组织一些核心工作的制定,集团的规范,确定治理的目标,去推进治理的落地以及保持我们最终存储和计算的健康程度。

数据治理工作组,有一个非常重要的权利:即在各个 BUR 数据生产预算资金内的一个影响权。每个 BU 拿到的年度的预算多少都与数据治理的目标达成与否有密切关系的。数据治理工作组在 BU 的预算的制定上有非常重要的话语权,也是保障治理工作能够推进的一个推动点。

3、阿里巴巴数据治理:制度保障

在制度保障方面,制定了一个集团全局的数据资产治理规范:主要是为了进行责权的明确;去细化每个主体的责任和权利,它是一个高维度的抽象词。还制定了一些数据治理分项细则,比如:数据模型架构规范,数据仓库研发规范。数据质量保障原则,数据安全管理指南;这些材料也对外输出了相应版本。重要强调制度保障中的一点,要把数据治理的工作量化出来,这也是落地的重要关键点。

4、阿里巴巴数据治理:平台工具

在平台工具方面,阿里内部数据中台,离线数据加工的部分都是基于 MaxComputer 和 DataWorks 来构建的。

(1)MaxComputer 是阿里完全自研的全托管、 EB 级大数据存储和计算引擎,提供了海量的存储和计算服务。阿里的大数据处理加工任务,真正的好处是在 MaxComputer 引擎上的。 

(2)DataWorks 可以说是 MaxComputer 的一个操作势头,它基于 MaxComputer 的底座能力,提供了数据集成、数据开发、数据地图、数据质量,数据安全或数据服务等等全方位的产品服务。

这两个平台的密切配合,为数据治理落地提供常用类的平台支撑。

5、阿里巴巴数据治理:运营落地

在运营落地方面,采取了三种方式:

(1)日常运营:是每周定期的资源消耗周账单的发送,让资源的使用者清楚的了解自己对于成本的使用情况以及对资源的使用情况。

(2)治理专项行动:是定期的专项治理活动,会针对性的集中进行一个域化整治。

(3)治理红黑榜:健康分:治理的红黑榜排行,用红黑榜在其中公布的方式,来推动整个治理的实施。

这里强调的重点是量化,即一定要把治理的工作量化出来,基于数字来推动。例如:红黑榜,它的核心指标就是存储和计算的健康度评价,即健康分;当健康分很低的时候,还有一种约束手段能够进行控制,例如,在开发环境对资源的使用就会受到限制,除非完成治理,将健康分提上去等等。健康分该能力在 DataWorks 上阐明对外输出。


三、 DataWorks 数据治理平台能力

1、Gartner:2020年十大 数据和分析趋势

image.png

上图的两个指示:

第一,随着技术的演进,新的趋势和新的需求会呈现出不同;但是这些趋势之间或多或少都相互有联系,并且这些新趋势和新需求需要一些平台来进行能力的呈现。所以在考虑到相互关系中,构建一个统一的数据平台,避免重复性的工作和提高扩展性就非常重要。

第二,增强数据管理。在数据平台中,许多需要通过机器学习和人工智能技术的引入,来提供更强大、更便捷的功能去获得解放平台的使用者,让他们能够专注于其他重要的工作。

2、DataWorks:产品架构大图

DataWorks 产品设计的理念刚好与上述两点不谋而合。下图,即 DataWorks 的整个产品架构大图。

image.png

DataWorks 定位于一站式的大数据开发和治理平台,提供了涵盖数据同步汇聚、数据集成、数据开发、数据治理和数据使用的全方位平台能力。同时在数据治理的部分引入了较多的算法技术,能够更好的辅佐用户对平台的使用。

3、DataWorks 数据治理:核心概念

在进入具体的产品功能模块介绍之前,用 ess 和大家分享数据治理的核心理念。经常有人问数据治理的核心是不是去治理人?即这个人管好了数据治理就落地了。我认为这个说法一半正确,一半不正确。因为有说法是人之初,性本善;还有说法是人之初,性本恶。 DataWorks 看来治理对象是数据和采取数据的任务这两个更广的实体,它不是人,所追求的是通过平台产品能力来辅好平台的使用者,以至于数据治理的思路去辅助推进数据治理的有效落地。基于上述理念,提供了任务运维、数据安全、数据资产管理、资源优化等等一系列的产品功能模块去构成平台的使用。

(1)时效

数据治理的第一个需求层次就是数据产出的时效性要求;在该方面的要求推荐大家使用的核心产品模块是运维中心和智能监控功能。在运维中心方面,提供了离线和实时任务的丰富运维操作,比如:对失败任务的批量存跑、历史任务的数据运行以及运维诊断的功能。可以极大的节约任务运维的时间开销。这里重点推荐的是智能监控功能,即面对一个复杂工作流的时候,能够极大的简化告警配置的任务,前面所提到的引入的算法技术加持,有算法增强的一个亮点功能。还有移动运维、短信、邮件、钉钉群、电话等丰富的告警功能。具体的智能监控例子。如下图。

image.png

右侧的图,展示的是一个真实的工作流。如果要保证非常重要的课节点数据产出的时效性,通常需要从课节点逐层往上去寻找它的上游节点,来配置上游节点的产出告点的时间监控,这就会出现极大的工作量。并且影响课节点产出数据的面目可能是动态的、变化的;比如上游的某一个节点之前耗时非常短,但是因为某些突发原因该节点的耗时变长。所以该节点可能变为关键路径上的一环,如果之前没有配置告警的话,处置就会变得很慢,最终会影响产出的时效性。基于上述情况,智能监控的功能就可以非常好的解决上述问题,只需要去配置对课节点的一个时间要求,直达的话交给算法自动处理。上游节点处在关键路径上,什么时候应该告警给节点负责人都可以交给视同智能处理,这是阿里内部大量使用的核心功能之一。大家经常听说的阿里内部保障产出任务不破线,线指的就是智能监控的基线。

引起任务产出延迟的一个常见原因是资源的增强,即大家所说的这个任务为何没有跑起来?以 MaxComputer 的搜索任务为例, DataWorks 首先会对工作流中的任务进行调度,之后下发到引擎具体执行。这个任务其实有两个环节的消耗:第一个环节是 DataWorks 自身的环节,另外一个环节是 MaxComputer 的引擎环节。在运维中心里看到任务等待资源的情况,通常指的是 DataWorks 的自身调入环节的资源不足,任务在等待。在任务的默认情况下会使用 DataWorks 平台提供的一个共享资源的大池子,即默认资源组;在资源大池子中,自己的任务出现资源争抢的情况,从而引起任务延迟的概率是存在的。针对于上述现象 DataWorks 也提供了一个独享资源组的能力,可以非常好的解决该问题。独享资源组,提供了一个良好的弹性伸缩能力,可以按照需要去手动扩缩(无法自动扩缩)。对于高时间要求保障的任务,特别建议使用这些任务调度的独享资源组。如果另外一个点是引擎层面的资源任务的延迟,就需要考虑增大 MaxComputer 的 CU 配额上限。

(2)质量

数据质量保障的需求层次, DataWorks 提供了数据质量模块,关键点:

第一:支持配置的动态阈值规则和规则的自动推进,是引入的 AI 算法价值的特殊功能。

第二:质量的监控与任务的调度是相关的;可以设置一种强规则去组塞任务调度的运行。在出现质量问题的情况下,将任务调度暂停,发生告警,由其进行处置;这样就可以防止质量问题的大范围扩散。

下图是对数据质量监控的分层。配置质量监控规则的最佳时间建议,即不同的层级适合配置不同的质量监控规则。

image.png

(3)可用

在数据治理的第三个需求层次,即数据的可用性和复用性, DataWorks 提供了数据地图的模块。如下图:

image.png

数据发现:数据发现的功能,数据地图里目前支持11种数据源的元数据采集和数据目录构建,数据目录固定之后,提供了一个非常强大的全局检索能力。

全局检索:可以让用户通过表、字段、描述等多元素去快速的搜索、检索。

元数据详情:进入表的详情之后,可以看到表的元数据的丰富信息:基础元模型、 Schema 详情,即本身字段的名称、字段的类型以及数据产出的情况、数据使用的记录、数据使用的任务等等;都可在元数据详情中查询到。

血缘信息和影响分析的能力:血缘信息是地图中非常有特色的一个功能点,即能够清晰的展现出表内上下之间的血缘关系-全域数据血缘,即产品的最新功能上提出的跨不同数据源之间的血缘关系的展示。比如,把 ADS 里面的业务数据同步到 MaxComputer 里做数据处理加工;加工完成之后返回到业务库中。这个过程中 ADS 的 MaxComputer 表的清晰度都会展现出来。该功能可以方便的了解数据处理的思路以及数据的来龙去脉。影响分析能力:如果该数据出现,就需要修订它的口径从而改变情况。基于血缘的能力也方便找出改动的可能潜在的下游是哪些?从而通知上游做相应的室内改造或进行一些反馈。

数据预览、数据探查:数据预览能够对少量的样本数据进行抽样预览,能够方便用户快速了解里面的具体数据、含义。目前,数据探查的功能只发了部分的理解,能够对该数据进行统计指标分析;能够便于洞察数据的分布情况,即数据的最大、最小值、控制域等等。大家在数据分析上,有对数据指标,数据分布了解的诉求就可以使用数据探查能力。

数据类目:即便于对数据分门别类进行管理的能力。比如:可以看到数据分成或者按照组别业务的划分,将这些表分门别类进行管理。数据类目的划分非常方便,即通过数据地图中类目导航找到类目下已经有哪些表,这样也便于对表的一个查找。这一系列的数据查找和理解的功能,最终的目标是为了便于提升数据的使用和复用的效率,能够让数据被更多的复用起来,从侧面减少数据的重复、生产和存储的成本,这是数据地图提供的一个产品能力。

(4)安全

在数据安全方面, DataWorks 提供了安全中心和数据保护伞两个功能模块:

安全中心:主要是处理表的权限,按审批和审计的申请。它目前只部署了上海和北京两个 region ,现阶段其他 region 的这个功能还是暂时在数据地图中存在的,会把这个功能尽快的拉平

数据保护伞提供了金融级别的敏感数据的识别保护能力,风险的识别和预警数据风险的审计,以及数据脱敏的功能与其他功能模块有非常密切联动。比如敏感数据保护,在数据开发的查询结果页面和数据地图的这个数据预览页面都可以设计应用上数据脱敏的能力防止敏感数据的泄露,早两年的数据保护伞的PD对这个模块有着非常详细的介绍

DataWorks 数据安全方面,提供的基于 MaxComputer 底层的安全模型提供的安全能力不管是全年审批还是数据保护伞等等一系列,都能够非常好的满足在数据安全广告方面的治理需求。

(5)成本

数据治理最高层次的一个需求,就是成本方面的观点,在企业的数据量规模和数据生产任务数量达到一定的程度之后,数据诉求就变得愈发强烈,就非常自然地提出来,在公共云上也收到了很多人客户企业在这方面的诉求。所以,最近推出全局的数据资产盘点和数据资源优化的功能模块,能够支持大家便捷的进行整个组织的一个资产的盘点。查看数据资产的总量的趋势以及分布情况。基于数据治理数据的思路,通过对计算引擎和平台双方的全方位元数据的一个个汇总、智能分析,会给出同步任务、数据处理加工任务和数据存储这三个维度的一个具体规划。比如,表设置了一个很长时间的生命周期,但是数据写的不太好,产生的这种全表扫描的情况,就会带来额外资源的浪费。所以资源优化,就会针对这些维度进行处理,找出相应的问题,并给出相应的环节建议。在另外一个方面,提供了全局的视角和个人的视角;一方面是便于从整体层面查看整个资源优化治理下的一个全局落地情况,另外一方面也便于具体的执行,即需要去做的具体功能。在平台上查看,就需要密切关注它的治理并进行相应的操作,这种方式还是本着通过平台服务人去促进治理的落地。而不是前面提到的,治理去治理人,这里治理的对象还是数据以及采取数据的任务,用平台的功能来便捷的帮助使用者去更好的落地数据优化治理项目。这个功能模块花费时间不长,该功能还在逐步的演进,大家在使用过程中有相关的需求,并且功能还不能满足的情况,非常需要大家的反馈,在后面的产品迭代中会继续进行完善。

数据治理 :幕后英雄

DataWorks 治理背后的幕后英雄:极致性能,极致灵活和稳定、业界领先架构方案。

DataWorks 背后的存储和集装引擎是 MaxComputer 。

极致的弹性:MaxComputer 持续在存储和计算上的技术创新和演进、优化改进,是阿里内部能够达到10亿规模每年的成本优化的一个主要原因、一个手工支撑。在公共云上,目前大家也可以享受到这个技术带来的红利;比如,单位数量的数据的计算和存储成本是在持续下降的。一个收购需要运行资源的消耗是在持续降低的,也是变相的将集团内部打磨出来的一些技术行业对外输出,辅助大家进行成本节约。

极致的灵活和稳定:Maxcomputer 在这种资源使用模式上推出了一些创新,比如最近推出的包年包月,手动设计特点组,以及按量付费的包年包月混用的模式,也是为了节约成本的考虑,可以把这些功能用起来,这样就能够在账单上看到一个显著的效果。

业界领先架构方案:是在今年云栖大会中,发布了湖仓一体解决方案,方案里通过统一的语义层,支持数据湖和数据仓库里面的存储灵活联动来进行计算分析,可以有效降低数据的复制和存储的成本,想象一下在湖里面的数据也可以在舱里面来一并进行计算分析,而且不需要把数据在湖仓中来回转移,这样数据的复制成本和存储的成本,就得到极大的降低,公司业务上有湖仓管用的需求,强烈推荐去申请试用这个新的解决方案。

运维成本,它实际上是一个极大的成本,尤其是离线处理任务,它的特点是夜间生产的,如果这个生产平台不稳定,夜间运维的工作是非常消耗人力的。这是一个非常大的隐性成本, MaxComputer 的平台引擎它有非常高的能力,印象中它出故障是非常少的,对比开源的一些方案和大家之间的一些方案,就有非常大的优势。这个平台的一些技术能力,能够让用户的时间和精力得到节约,也是做平台的对于用户的最大的尊重。如果还是在进行数据中台建设的一个技术选型阶段,还是强烈推荐使用 MaxComputer 和 DataWorks 的组合。这个组合是提供了最为完整的、丰富的配合产品能力。该组合也是阿里内部经过长时间的检验的一个选择,所以大家要相信阿里的选择,如果你在技术选型的话,建议你优先考虑 MaxComputer 和 DataWorks 的一个产品组合。


四、产品最新进展

1、DataWorks 数据综合治理-全新版本

推出了全新改版的数据综合治理;在新版本中,通过对数据生产、数据使用和数据管理三个视角的抽象,能够让你更聚焦的关注和使用不同视角下你所需要使用的产品功能。在新版本中,提供了一系列新的产品能力,如下图是一个汇总的介绍。

image.png

在统一的元数据管理上,数据地图中支持了 MaxComputer 、EMR 、 Hologres 、 ADB 、 RDS 等云上11种最常用数据存储的原数据的一个采集。基于这个基础,构建了全链路的、全域的一个数据血缘大图。

在数据安全方面,提供了最新的数据泄露数源功能和基于区块链的数据流转安全产品的数安链。

在运维监控方面,新增了移动运维的能力,即可以在移动端(手机端)灵活处理告警,去节省在夜间运维的一个时间,提供了便捷性和电话告诫的能力。

在数据质量控制方面,也会在近期发布稳定性治理、 PDCA 机制 、治理闭环的产品能力。

在成本优化管理方面,阿里巴巴最佳实践的健康分,这个评估机制也在计划对外输出,也会在近期上线。

在开放性方面, DataWorks 对外是在企业版里提供了全套的 open API ,通过这种方式,大家可以获取到元数据信息,进行额外的自定义的数据积累的工作;通过 API ,把数据拿走之后,有治理方面的一些更进一步的诉求,可以自己来做这方面的工作。

在生态合作方面,特别注重与行业领域里面的一些非常优秀的合作伙伴来一起进行合作构建、合作建设,去输出联合的解决方案。下面重点讲两个方案:

第一个是 DataWorks 和数据科技 Datablau 提供的数据中台模型管理平台的一个联合解决方案。

第二个是 DataWorks 和御数坊 DGOffice 提供的一体化数据治理解决方案,会以咨询加产品的模式为客户提供全线的咨询服务,面向这个数据全生命周期展开全方位的治理工作。运输版的 DGOffice 是在很多行业里沉淀了非常丰富的数据治理的行业经验,治理其实是有非常强的行业属性,只有在这个行业里面摸爬滚打很多年后,沉淀下来的才是行业里面最需要的能力。所以, DGOffice 在这方面和 DataWorks 相当于是提供了一条非常复古的组合能力。御数坊的创始人刘成老师,也是数据管理领域中非常资深的专家,是国内数据治理和管理工作开展的一个新能者和领路人之一, DataWorks 在进行数据期间的过程中,也是持续向合作伙伴和客户的学习过程。


五、总结

1、理解数据治理是属于管理的核心组成部分,是数据管理过程中流程和工具的支撑。

2、介绍了企业在数字化转型的不同阶段,它的数据治理的需求层次是存在区别的是金字塔形状的五个需求层次。

3、统一的开发和治理平台来减少重复工作,提高扩性。

4、治理的对象是数据和产出数据的任务用工具和平台服务好平台的使用者来推动数据智能落地。

5、即 DataWorks 的核心理念:用数据来治理数据

6、平台和引擎的技术演进尤其是 MaxComputer 的底层引擎技术演进,是治理落地的一个催化剂。

底层引擎在后台做了非常多的优化工作,可能平时的感触不多,但是它对于我们的激励、成本优化是有非常大的帮助。

7、开放和生态合作

DataWorks 给合作伙伴在 API 方面提供了一个很好的开放性,如果大家有制定激励方面的需求,可以通过 API 来获取自己相应的数据,去进行制定激励。

上云就上阿里云,玩大数据首选 DataWorks 。

最近也持续提供了一些优惠的活动,比如,讲到的数据参数使用要求,会推荐大家去使用独享资源组,在 DataWorks 独家资源组的产品售卖上,首月是有优惠的;在高级版本-专业版中,现在也是有首月199的优惠,专业版里面提供了数据治理方面的绝大部分的产品功能,199价格能购买到的是原价5000的版本,这是非常大的优惠;全套的 open API 也是放在企业版里;还有一个特色的能力制定资源组,想去力救自己的机械来进行资源调度,在企业版里,就可以去选择制定资源组来代替前面提到的共享和独享资源组来进行任务调度。在企业版里,除了享受基础版、专业版等前面企业版本的能力之外,还有 open API 和制定资源组以及内置的风险模型等等更强大的功能也推荐大家去选择。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
1天前
|
数据采集 DataWorks 搜索推荐
DataWorks产品最佳实践测评:用户画像分析实践
DataWorks产品最佳实践测评:用户画像分析实践
22 3
|
4月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
468 54
|
4月前
|
SQL 分布式计算 DataWorks
利用DataWorks构建高效数据管道
【8月更文第25天】本文将详细介绍如何使用阿里云 DataWorks 的数据集成服务来高效地收集、清洗、转换和加载数据。我们将通过实际的代码示例和最佳实践来展示如何快速构建 ETL 流程,并确保数据管道的稳定性和可靠性。
207 56
|
3月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
364 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
4月前
|
数据采集 JSON DataWorks
DataWorks产品使用合集之支持哪些数据引擎
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
数据采集 DataWorks 安全
DataWorks产品使用合集之如何实现数据过滤
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
4月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
运维 DataWorks 监控
DataWorks产品使用合集之如何自定义UDTF
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks API
DataWorks产品使用合集之如何设置把结果传入变量
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    111
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    108
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    92
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    94
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    103
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    116
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    151
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126