《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——二、Dataphin 演进之路:产品大图及核心功能详解——(三)资产治理:标准、质量、安全、资源(6) https://developer.aliyun.com/article/1229582?groupCode=dataphin
4. 每年节约数亿元成本,阿里巴巴资源治理如何做到
数据环境下,居高不下数据存储和计算成本,是每一个企业数字化转型过程中绕不开的难题。阿里巴巴也遇到过类似的问题,但凭借着一套沉淀下的方法论和产品,每年为阿里巴巴节省下数亿元的存储和计算成本。本篇,我们就来聊聊阿里巴巴的资源治理方法论和产品 Dataphin 在这一领域的能力。
1) 资源成本暴涨与阿里巴巴的应对之道
数智时代,海量的数据为业务创造了巨大的价值,但同时也带来了不断上升的计算成本和存储成本,甚至会出现“IT 成本增速大于业务增速”,“赚来的每一分钱都用在了购买服务器上”的极端情况。
在阿里巴巴的发展道路上,也遇到过这些问题:
• 数据资源完全黑盒。
• 数据资源量大成本极高。
• 数据价值链路断层。
为了解决以上问题,阿里巴巴创建了数据资源管理平台(隶属于数据中台),用于对整个集团数据计算和数据存储进行成本统计和优化。每年节约数亿元的数据成本,阿里巴巴是怎么做的呢?
阿里巴巴采取了以下措施来实现数据资源的管理:
• 做好数据资源的盘点:包括理解数据资源内容,和构建资源类目两部分。需要理解全部数据资源的业务属性,制定规范的资源类目,做好数据的分类分级,总而言之是要摸清数据资源大盘。
• 做好数据资源成本的评估:包括追踪数据应用和剖析成本价值两部分。评估数据价值需要追踪数据应用的全链路,盘点出每一份数据资源的连接度、贡献度;剖析成本价值主要从数据计算和存储两个维度来评估。
阿里巴巴通过以上步骤,将数据成本、业务收益做到清晰透明可评估,从而可
以针对性的对数据资源进行运营,降低数据成本,提升数据效益。
2) Dataphin 资源治理概述
在方法论的基础上,我们还需要一个成熟的产品,来帮助我们快速的建立资源治理体系,真正降低在数据技术建设中的成本。
Dataphin 的治理功能,就是阿里巴巴的数据资源管理平台的商业化版本,具备强大的资源统计分析能力,智能识别当前系统内低价值的数据资源和数据任务,并进行优化提示。
模块包括主要包括资源管理、治理概览、治理工作台、治理项管理、回收站等功能:
• 资源管理主要用于资源分析。
• 治理概览由治理分析和治理效果组成。
• 治理工作台由我的治理和项目治理组成。
• 治理项管理由元数据注册、治理项管理、推送管理、任务管理组成。
• 回收站将在治理工作台中删除或下线的表格暂时存留起来,以防止误操作。
优势
• 内置治理项,开箱即用:Dataphin 对 Dataphin 系统内部的数据生产和存储都进行了元数据的采集,同时内置了最常见的存储和计算治理项,确保开箱即用,可以快速看到全局的资源情况,并进行相应的优化分析。
• 治理项支持灵活自定义:Dataphin 同时支持客户自定义治理元数据和治理项,支持更加灵活的治理场景,比如想进行小表格的检测,就可以新建治理项【小于 1MB 的表】,从而自动检验出这部分的数据表,并进行针对性治理。
• 密切结合数据生产场景:Dataphin 的治理模块和数据研发模块、数据资源模块进行了紧密的结合。针对检验出来的治理事项,可以直接在治理工作台进行处理,直接在研发任务和资产存储等方面生效,从而做到一站式做好资源治理工作。
3) 资源治理典型应用场景
以下是通过 Dataphin 实现资源治理的一些典型的场景。
场景 1:存储优化长期无人使用的表
一家企业往往有上万张表,随着业务的变更和人员的流动,一些业务表逐渐无人使用,同时因为多个分区进行存储,会一直占用大量的存储资源。比如一些公司的原始数据,一个分区可能就有 1T,但是业务每次都只会用最新的分区,就会导致大量的历史分区的存储浪费,可以设置分区的过期策略,对历史分区进行下线操作。
Dataphin 资源治理功能,可以自动发现无人使用的数据表或其他异常数据表,并在治理工作台进行提醒和展示。同时可以在治理工作台查看相应数据表,并采取下线、设置生命周期等措施。
场景 2:计算优化异常计算任务
计算资源的重要价值和昂贵成本,需要每个任务都按需使用。而在实际的业务开发过程中,存在大量的异常计算任务,浪费了大量的计算资源,如暴力扫描(扫描大量分区)、数据膨胀(数据产出远远大于输入)、数据倾斜(部分节点处理时间过长)等情况。
Dataphin 的资源治理功能,对任务的执行进行了全链路的监控,自动发现这些异常的计算任务,并在治理工作台进行提醒和展示。可以在治理工作台查看相应任务,并采取相应的任务进行代码优化、下线等措施。