数据治理新能力解读| 学习笔记(三)

本文涉及的产品
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习数据治理新能力解读

开发者学堂课程【云原生一体化数仓新能力解读课程数据治理新能力解读】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1193/detail/18112


数据治理新能力解读


三、成本优化治理最佳实践


前面这一块的就是概要的看了数据治理中心,按提供的一些产品和产品能力。第二大部分结合一个具体成本治理的案例,介绍一下成本治理的最佳实践。

而需要这个说明,这部分内容主要是面向 DataWorks MAX Compute ,这个大家用来构建一键出仓,最常用的产品组合之一。这个也是阿里云内部使用的一个产品组合。而面向其它引擎,比如 HOW GRASS EMR LINK等等优化的经验,这个不在本次分享范围之内,可以关注一下的其它课程分享,会有一些相关内容。

 

1.具体案例

看一下具体的一个成本优化治理的案例,这个案例来自于真实的客户。

1)、概要背景

它的概要背景是,客户主要是使用的是 DataWorks MAX Compute 组合,几乎全部的作业都放在这个组合上面,后来 MAX Compute 它使用是后付费模式,也就是按量付费,先使用后付费这种模式,但是随着业务的高速发展,平台使用的费用出现了一定程度的不可预估性。大家知道付费模式往往无法去预估它具体的使用费用,所以整体的费用就出现了不可预估性。

2)、优化治理的诉求

在这个优化治理方面,就是客户提了两个明确的诉求,第一个就是在支撑好业务发展这个大前提下,这个降低整体的成本,还是有要求降低35%以上。第二个是对SLA 还是有很高保障的要求,就是既要去开展成本优化治理,又不能降低业务数据产出时间这个承诺,不要影响业务 SLA

3)、优化治理的措施

在这里治理优化措施方面,大致可以看到采取了三类措施。

第一类对于存量问题进行优化治理,比如对任务和表进行下线,和清理以及一些相应的优化,来减少资源的浪费,这个瘦身的工作。第二是把后付费模式按照 Quota模式转成预付费 ,这样便于资源的费用预算的可控。更加好去制定这个预算。同事这个拆分二级 Quota 组,使用分时调度能力,进行业务上的错峰,提升资源使用率。

第三个就是面向补数据场景。因为 data 有大量的算法作业,有很多补数据的数据任务,灵活使用 USE quota 这个产品特性,这些引擎技术上的红利,来让资源消耗更加可控。通过这些模式整体就维持了这个 SLA 的一个整体的稳中有升,而且整体成本下降35%以上,就是顺利达成了一个降低成本的目标。

image.png

2.措施一

具体展开看一下,就是这三大类措施,第一类就是存量作业的优化治理。

1)、资源使用概览

存量作业的优化治理里面用的是 DataWorks 一系列数据治理功能。第一个就是DataWorks 使用概览里面提供的资源使用的异动,异动分析这个功能,对于计算,存储,包括 DataWorks 同步调度,资源的消耗。可以到任务力度,还可以去体现出当天消耗和前天消耗的一个对比情况,可以找出来资源消耗出现异动增加的这些作业,有针对性的来进行优化和治理。

image.png

2)、资源使用的明细

然后第二个就是单个任务具体资源使用的明细,可以看一下这个丰富的资料,以这个 MAX Compute 计算作业为例,对于作业的一个费用的预估,这里面也会提供出来,当然还有 cu 消耗,这个 CPU 的消耗,内存消耗,这个对于预付费会比较关注,对于后付费的这个计算量、计算复杂度,扫描数据量等等,一切指标都会提供出来。在资源使用明细里面,可以非常清晰的看到这个单独出来的打的一个资源使用的情况。而且通过这个排行功能可以找出 top 的作业,并且根据这个作业的SLA容忍度,来进行相应的错峰。有一些作业,它的资源消耗非常高,在凌晨资源的高峰期,和别的资源完全可以适当的错峰,延后一点,错峰一个低谷的阶段,然后这样达到了消峰填谷的一个目的。第二个是针对于资源使用明细,找出资源消耗任务,结合 SLA 容忍度来错峰调度的一个优化使用。

image.png

3)、任务360

第三个就是 DataWorks 提供了一个任务360的功能,可以清晰的去查询每一个任务,而具体到一个任务一端,它这个可以优化治理的问题是那些,特定的发现问题,然后进行针对性的优化处理,结合治理项处理指南,这个结合前面讲到的 TOP任务,如果一个 TOP 任务找出来之后,对它进行一个任务优请化,就可以利用这个任务360的功能,定位的任务,查看它是否有关联的治理项,如果有进行相应的优化对资源的节约有一个好的效果,当然,表360的功能也正在开发。

image.png

4)、治理工作台

然后第四个,是治理工作台,治理工作台是它是通过一个全局的一个汇聚的视角,来展现这个整体的可优化任务和表的全貌,并且提供处理指南。比如下图里面展示的,任务输出为空,它有一系列的任务输出为空,可以把 epr 的任务都参照处理指南,比如去检查它的输入是不是正确输入条件是不是正确,逻辑是不是正确,以及去看这个任务是否可以暂停下线,进行这样一系列的治理操作。

通过这样的一些措施,在客户里面大概节约了,下线20%左右的任务量和表的数量。这样对于整个的资源使用的一个节约是由非常显著的效果的。

image.png

5)、成本优化重点关注检查项和治理项

当然,在成本优化治理方面,这里也概要列了一下,需要关注的一些简单的检查项和治理项,这些都是数据治理能力提供的,比如分区表,查询的时候必须带分区,这样检查项建议启用,能够非常好的去杜绝这个分区表全表扫描的一个情况,大量资源消耗。还有简单加工等等一些拦截。包括后边的治理项,像一些无法调度,top 扫描等等一系列。

image.png

3.措施二

image.png

1)、付费模式转换

第二个措施,看一看项目的付费模式转换,就是 MAX Compute 服务模式转换。众所周知,MAX Compute 的资源有后付费和预付用这两种模式。

其中后付费模式它已经灵活的资源分配的策略,能够及时满足大任务对于资源使用数据高保障,能够加速这个任务产出时间。所以受到了大家的一个是使用非常广泛,但是这个付费模式它也存在一个典型的一个问题,有一个弊端,就是它无法从全局,对于费用进行一个事先的,提前的一个规划和整体控制,因为最后它付费是根据这个扫描数据量和数据复杂度来收费的。就是这种情况,就是因为数据量和这个复杂度容易出现不稳定的情况,所以就容易出现比预期的支付大的账单,从而使整体的费用飙升,不可控制。

那对照而言预付费的模式,它可以支持购买一个固定额度的资源,能获取的资源上限就是这么多。这样就是能够更加好的整体的去控制预算。所以,当前就是在降本这一个大的背景下,所以有很多的客户,也希望提供这种后付费转预付费方面的一些支持,来实现预算的整体可控和对成本的一个清晰化的优化。

不过话说回来,这似乎万全之策,后付费转预付费,它只是把双刃剑,毕竟预付费这个模式,它购买的这个额度是有上限的,它不像后付费能够获取到一个非常大的峰值,能够让任务在非常短之内跑完,所以在转预付费的时候,是要充分了解项目特性的。比如没有这种资源突发使用的情况,如果有大量这种情况,就不适合转,如果转过来的时候,资源购买多了,就是一种浪费,购买少,流量超出时间,sla就受到影响了。然后已知这个资源的高峰值和低峰值是多少,这些都需要进行一个全面摸底,然后来做整体评估是否适合转成预付费。

在数据治理中心里面,提供了从预费转后费模式下,资源折算成预费模式的一个CEO 的峰值的一个趋势图,做一个参考,如果真的决策了要转预费。可以参照这个值,去购买 sla ,这里面的一个经验,只是建议这个图中趋势图,里面的峰值的1.2倍到1.5倍,这是一个经验值,这样的一个能够比较好的保障整体作业的 sla。当然,如果在转换过程中,还是没有把握,购买多少合适,或者是对于这个 sla 作业影响不太有把握。也可以联系团队,帮忙给做一个流量的评估和整体方案的设计。

2)、强隔离

然后转到后付费模式以后,MAX COMPUTER 它提供了 HQRS 的功能,这个功能它能够非常好的帮助进行资源的优化调配置,这里面有三点的实践来给大家做个分享,第一个就是这个强隔离,这个强隔离模式在 ouota 组里面设置这个资源组的一个最小预留的 CEO 配等于最大预留的配,就比如下面这个图里面所设的这个算法组。就是一个常规的模式,那这样就能够保证 quota 组能够获取到固定的一个资源,这个适合在夜间高峰作业的时候,对于有强保障这个要求里面作业,进行这样的配置,分配这样的一个 quota 组。

3)、资源倾斜

然后第二个就是资源倾斜方式,资源倾斜方式与强隔离对应的,是需要把这个预留的 CEO 的最大值设置为大于这个预留最小值,这种模式下,在这个 quota 组空闲的时候,quota 组可以去跟它共享几个空闲的 cu 的,这样就能够达到一个比较好的资源的一个弹性共享的目的。

4)、quota 组分时

第三个就是非常有效的一个措施,就是 quota 组分析能力。通过分析的设计,可以有效的平衡在这个夜间的离线作业的高峰,生产高峰的值,它需要的资源的分配和白天人为的去进行数据分析查询,这些项目资源使用诉求,能够得到比较好的平衡。那比如在凌晨时段,零点到七点时段,还可以分配一个相对更大的 cu 值,然后在白天的面向数据分析查询时段来就在离线作业项目里面,把cu值降下来。对于分析查询所使用的 quota 组,把它的 quota 维度进行提高。通过这种方式有效的降低整体 cu 的最大峰值,能够达到一个资源成本的节约。

5)、注意

不过这里面有两个点需要提醒注意。第一个点就是需要去梳理出来,转到后付费以后,需要梳理出来作业优先级,对于高优先作业,要高SA保障作业,要充分利用这个 DataWorks 智能支线的功能,来配置支线的监控。一方面来保障,这些作业的资源能够得到优先分配,其次,也是很重要的一点,就是如果系统推迟了这些关键任务,它会出现产出延期,它会可以提前发生告警,这个是支线功能的一个非常大的特性,就是它能够智能预测,这个节点的产出时间,往上一层追溯,给处在这个关键路径下,影响承诺时间的这样的一个关键任务,发生报警让任务的负责人来进行处理。这样能够有效的提前发现这个问题,留出足够的充裕的时间量。

第二个转的,写错了,预付费转到后付费模式之后,不对,是后付费转到预付费之后,图中没写错,MC QA查询产品加速的资源需要重新规划的,如果有使用这个功能,也需要特别留意一下,要留意一下这样的规划。

 

4. 措施三

最后看一下第三个场景,第三个措施,面向补数据的一个成本的优化。

image.png

1)、补数据

补数据,也就是回刷数据功能,在算法实验场景下使用非常多,通常如果一个模型的验证下的效果非常好,就是以测试下效果非常好,算法同学往往需要回刷一个礼拜,一个月,甚至半年的这个数据,回刷的工作,消耗的资源是非常大的,而且算法作业往往有一个典型特点,扫描数量数据量非常大。但是它对这个作业完成的时间的 SLA 的要求,相对是不高的。还比如补数据在一天之内能够跑完,在第二天,可以供它来使用,也是可以接受的,这种特性下,如果使用后付费模式的话,按照扫描数据量与它成正比这个方式来收取资源费用的话,会带来一个非常高的一个产品的开销,上图左侧的图就概要设计了这种情况。通常周期调度这个任务的费用,拆分开来看,它只是相对平稳可控的,但是数据不确定性是非常高的,也就带了整体成本的不可控。

2)、use quota 功能特性

所以针对这种场景,MAX COMPUTER 在引擎能力特性上也做了一个演进提升。提供了一个 use quota 的一个功能特性,支持将单独作业指向一个特定的预付费的quota 组,quota 组可以限定一个较低的一个上限。分配一个比较低的资源供它使用,让作业慢慢跑,也尽可能保证作业能够一天产出。这样能够保证作业能够顺利的完成。按照时间要求顺利完成,也可以有效的来控制整体的费用。

3)、针对周期调度任务

针对周期调度任务原则上是不建议使用 use quota 这种能力的。这种方式对于 SLA的一个影响,其实潜在影响是非常大的,如果非要使用的话,就是要做好事前评估,至少像上一点提到的支线监控功能上。这样提前预知事项产出是否延迟,能够为这个处理争取一个储备时间。但总体而言,对于周期调度,建议谨慎使用 use quota 这种能力或者不去使用这个能力。

成本优化治理的一些最佳实践,三个常用的措施,就概要介绍这里,当然还有一些其它的方法,比如可以按照这个任务的特点,它的不同,将这个离线作业和数据分析查询作业给来放到的不同的 MAX COMPUTER 项目中。对应的放到 DataWorks  不同空间中,然后再采取不同的付费模式,离线作业,可以用付费模式,然后分析查询作业给相对小额度的 ceo 来供它们使用。保障一个基础的仓余储备情况下,费用也得到一定的控制,这些都是数据治理有效措施。

 

四、未来规划


最后一部分,聊一聊这个数据治理中心的一些未来的概要治理规划。数据治理中心还是会立足于这样的降本增效核心的诉求,来持续建设产品的功能。

image.png

1.功能建设

比如去丰富内置的治理项和检查项,能让治理的问题得以更加全面的发现与预防。同时,在这个问题发现预防之后,会提供更好的这个任务下线,表删除等这些治理的操作,称之为优雅处理方案,来解决处理的风险的工具,来提升问题的处理效率和处置的完成率。然后资源分析上的一些核心功能也会持续研发,比如说前面有提到的,在这个资源使用的一个智能的优化推荐上也会去做一些工作。来切实控制不合理的资源的使用花费,还有一点要特别强调一下,就是当前数据中心这些核心产品能力主要是围绕 MAX COMPUTER ataWorks 这样的产品组合来构建,当然后续也会有计划,把它拓展支持 emr hivehologres 等更多的引擎。当然也会去面向不同行业去沉淀,提供相应的最佳实践和行业模板,提供智能治理能力。

 

2.GMT

在最后一 part 的这个产品商业化方面,就是经常有朋友问,就是数据治理中心收费模式是什么样子的?这个模块会作为企业版的一个核心功能特性推出,在企业版里面就可以使用,不会单独收费,这个功能和前面介绍的数据开发平台,DataWorks 开发平台,就是开发数据,开发消息一系列的,开发平台的能力,都是企业版里面的一些核心的功能特性,所以能够在企业版里享受到,可以相比专业版有非常显著差异的一个功能。

然后当前的企业把那些项目计划预计在八月份会增加一个限制。当前75号的时候已经全面开始产品的使用,提供限时一个月的免费体验,在这一个月期间,免费体验没有版本的限制,在所有的版本中都可以免费体验数据治理中心里面提供的,一系列的产品能力。可以来看一看,治理健康分部怎么样?有哪些问题需要去优化?体验一下这些问题预防的一些功能。

 

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
11月前
|
数据采集 存储 数据管理
数据治理是什么?该如何入门呢?
数据治理是什么?该如何入门呢?
134 0
|
4月前
|
存储
从云存储视角看数据治理的重要性
【6月更文挑战第2天】数据治理是云存储中的关键,扮演着管理数据精灵的角色,确保数据的准确性、完整性、一致性和安全性。通过示例代码展示了数据治理的基本操作,如检查数据错误和完整性。实际数据治理工作复杂且需团队协作,随着数据增长和业务变化而不断进化。它是实现数据有序利用和价值释放的重要保障。让我们共同致力于数据治理,为数据创造一个良好的环境!
59 2
|
数据采集 SQL 机器学习/深度学习
DawnSql在数据治理中的优势
DawnSql数据治理平台的优势。1、降低成本 DawnSql 既是分布式数据库,也是离线数仓,也是实时数仓 DawnSql 既支持标准 Sql,也支持 NoSql,还支持自己定义的语言 DawnSql 是分布式缓存,支持对数学的实时反馈,提升业务对实时数据的价值 DawnSql 是分布式的服务平台,可以支持服务的负载均衡和故障转移 DawnSql 支持机器学习和扩展其方法 结论:DawnSql = 传统大数据平台 + MPP平台 + 微服务框架。
DawnSql在数据治理中的优势
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
436 0
|
存储 数据采集 安全
【数据治理】什么是数据治理模型?
【数据治理】什么是数据治理模型?
|
存储 运维 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(3)
137 0
|
运维 DataWorks 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(7)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(7)
123 0
|
运维 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(8)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(8)
120 0
|
DataWorks 数据可视化 数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(4)
115 0
|
数据建模
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(6)
《全链路数据治理-智能数据建模 》——客户案例:大淘系数据模型治理最佳实践(6)
130 0