每年节约数亿元大数据成本,阿里巴巴数据中台成本治理怎么做的?

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 大数据环境下,数据的存储和计算成本一直居高不下,是每一个企业数字化转型过程中的都会遇到的难题。阿里巴巴作为业内领先的数据智能公司,也遇到过类似的问题,但是凭借着领先的方法论和产品,阿里巴巴每年能够节约数亿元的存储和计算成本。本篇,我们就来聊聊阿里巴巴的资源优化方法论和Dataphin的资源治理和优化能力。

3-1.png

资源成本暴涨与阿里巴巴的应对之道

大数据环境下,海量的数据虽然为业务创造了巨大的价值,但是也带来了大量的计算成本和存储成本,甚至会出现“数据成本增速大于业务增速,不可持续发展”、“赚来的每一分钱都用在了买服务器上”等极端情况。


阿里巴巴在发展的道路上也遇到过这些问题:

1、数据资产完全黑盒。面对海量数据资产,没有统一的数据资产地图,不清楚我们有哪些数据资产,也不清楚做这些资产用在什么地方。

2、数据资产成本极高。阿里巴巴集团的数据量级早就到达了EB量级,如此巨大的数据体量,每年的数据存储和计算成本都高达数十亿元。如此巨大的数据体量,通过人工的方式去治理,往往导致资产治理效率低,人工成本高。

3、数据价值链路断层。这么多的数据,最终被那些业务使用,服务了哪些客户,也不够清晰。

3-2.png


为了解决以上问题,阿里巴巴孵化出了自己的数据资产管理平台(属于数据中台的一部分),用于对整个集团数据计算和数据存储进行成本统计和优化,每年可以节约数亿元的数据成本,那么阿里巴巴是怎么做的呢?


为了解决以上三个问题,阿里巴巴采取了下面的措施来更好的实现数据资产的管理:

1、做好数据资产的盘点:包括理解数据资产内容,和构建资产类目两部分。需要理解全部的数据资产、业务属性,制定规范的资产类目,做好数据的分类分级和自动识别,摸清数据资产大盘;

2、做好资产成本价值的评估:包括追踪数据应用剖析成本价值两部分追踪数据价值需要构建追踪数据应用的全链路,盘点出每一份数据资产的连接度、贡献度剖析成本价值主要从数据计算和存储两个维度来评估,计算每份数据资产的成本,从每一份资产在应用里的贡献度,来计算每一份数据的价值。3-3.png


阿里巴巴通过以上步骤,将数据成本、业务收益做到清晰透明可评估,从而可以针对性的对数据资产进行运营,降低数据成本,提升数据效益。


本文我们重点关注资源治理部分,如何实现大数据建设的降本。


阿里巴巴资源治理方法论

首先,我们来看一下,实现资源治理所要遵循的方法论。


要真正实现资源的治理,降低大数据建设的成本,需要以下两个关键步骤:

1、对全域的数据资产进行成本核算,生成全域的成本账单,获得降本目标

1.1、对全域所有数据,统一按照计算成本和存储成本进行核算,生成每一份数据资产的成本估算

1.2、对全域所有数据,进行治理项检测,识别出不合理的数据资产(如无人访问的废弃表)和数据任务(数据倾斜),并评估浪费的成本,从而在宏观的层面,测算出全局可降本的空间


2、以开发者个人为核心,推动部门、集团层面的治理优化,落实降本行动

如果只是算出来了账单,却没有后续的运营手段的话,很难做到降本目标的真正落地。所以需要以技术运营的手段,让人人形成成本意识,真正参与降本。

2.1、对开发者、部门进行账单的汇总,进行总成本、浪费成本的排行并进行通过平台公示,从而能够快速找到最需要优化的个人和部门的数据资产

2.2、对开发者的个人资产情况进行打分,如果成本意识低,资源浪费严重,就会导致个人资产健康分数低,导致该开发者不能提交新的任务,从而使其必须进行资源的治理和任务的优化,从而在微观执行层面,真正落实降本的行动


Dataphin资源治理

在方法论的基础上,我们还需要一个成熟的产品,来帮助我们快速的建立资源治理体系,真正降低我们在大数据建设中的成本。


Dataphin的治理功能,就是阿里巴巴的数据资产管理平台的商业化版本,具备强大的资源统计分析能力,能智能识别当前系统内低价值的数据资产和数据任务,并进行优化提示。

同时Dataphin提供了治理工作台功能, 您可以在治理工作台中,一站式的进行资源的优化处理,全局把控计算与存储成本,提升计算资源使用效率,减少无效的存储和计算成本


治理场景

首先,我们先看一下资源治理的应用场景,从而对资源治理的价值有一个更直观的认知。以下是通过Dataphin实现资源治理的一些典型的场景:

场景1:存储优化-长期无人使用的表

大数据场景下,一个公司往往有上万张表,随着业务的变更和人员的流动,一些业务表逐渐就无人使用,同时因为多个分区进行存储,会一直占着大量的存储资源。比如一些公司的原始数据,一个分区可能就有1T,但是业务每次都只会用最新的分区,就会导致大量的历史分区的存储浪费,可以设置分区的过期策略,对历史分区进行下线操作。

Dataphin资源治理功能,可以自动发现无人使用的数据表或其他异常数据表,并在治理工作台进行提醒和展示。您可以在治理工作台查看相应数据表,并采取相应的措施(如表下线、设置生命周期等)。


场景2:计算优化-异常计算任务

大数据场景下计算资源的重要价值和昂贵成本,需要每个任务都按需使用。而在实际的业务开发过程中,存在大量的异常计算任务,浪费了大量的计算资源,如暴力扫描(扫描大量分区)、数据膨胀(数据产出远远大于输入)、数据倾斜(部分节点处理时间过长)等情况。比如发现数据的输出远远大于数据的输入,可能就是存在数据膨胀的问题(比如使用了full join),这时候就需要对任务进行优化,以优化性能。

Dataphin的资源治理功能,对任务的执行进行了全链路的监控,自动发现这些异常的计算任务,并在治理工作台进行提醒和展示。您可以在治理工作台查看相应任务,并采取相应的措施(对相应的任务进行代码优化、下线等操作)。

3-4.png

产品能力介绍

1、使用流程

下面我们看一下资源治理模块的详细流程图3-5.png


*虚线框的流程为可选流程


可以看到流程主要分为4步:

1、管理员制定治理规则。主要是正式治理前的一些准备工作,因为Dataphin内置了众多规则,所以这一部分是可选的,包括元数据注册、治理项管理、推送管理等功能。

2、数据负责人执行具体的资源治理。数据负责人登录系统,对具体的存储资源和计算资源进行优化。

3、管理员定期查看治理效果。管理员通过对治理效果进行分析和查看,了解当前的资源现状和治理效果,包括资源分析、治理分析、治理效果等功能。

4、管理员优化治理流程,提升后续治理效果。管理员根据上一步的治理效果,优化整个治理流程,比如增加新的治理项、增加新的推送任务、单独通知重点项目负责人等。


2、产品功能

3-6.png


模块包括主要包括 资源管理治理概览治理工作台治理项管理回收站等功能:

  • 资源管理主要用于资源分析。资源分析是从全局视角为您展示资源消耗、资源消耗增速、资源消耗分布及资源治理概况。
  • 治理概览治理分析治理效果组成。治理分析针对全局进行问题诊断、待治理问题点的分析。治理效果助您分析治理后效果,评定治理情况、推动治理优化。
  • 治理工作台我的治理项目治理组成。我的治理面向当前登录用户,根据其所参与和所负责的项目,为您提供高效快捷的治理入口和能力。项目治理面向当前登录用户,根据其所参与和所负责项目的信息进行管理。
  • 治理项管理元数据注册治理项管理推送管理任务管理组成。您可以自定义创建治理项、发起推送、查看任务执行,也可以使用系统内置的通用治理项。
  • 回收站将您在治理工作台中删除或下线的表格暂时存留起来,以防止对数据的误操作,支持对表格的恢复和彻底删除。


3、特点优势

  • 内置治理项,开箱即用:Dataphin对Dataphin系统内部的数据生产和存储都进行了元数据的采集,同时内置了最常见的存储和计算治理项,确保开箱即用,可以快速看到全局的资源情况,并进行相应的优化分析。
  • 治理项支持灵活自定义:Dataphin同时支持客户自定义治理元数据和治理项,支持更加灵活的治理场景,比如想进行小表格的检测,就可以新建治理项【小于1MB的表】,从而自动检验出这部分的数据表,并进行针对性治理。
  • 密切结合数据生产场景:Dataphin的治理模块和数据研发模块、数据资产模块进行了紧密的结合。针对检验出来的治理事项,可以直接在治理工作台进行处理,直接在研发任务和资产存储等方面生效,从而做到一站式做好资源治理工作。

未来展望

随着数据的不断累积和业务的不断发展,大数据的体量将会变得越来越大,而随之而来的庞大成本,也成为了大数据建设中越来越无法忽视的问题。


从整体的功能来看,从新建治理项,到具体资源的优化,再到治理结果的分析,当前Dataphin已经有了比较完善的资源治理体系。但是基于客户资源治理场景的多样性,未来会陆续支持以下功能,从而帮助客户更好的进行资源的治理优化,降低客户进行大数据建设的成本。


1、对Hadoop等新引擎的支持。原有的治理模块和阿里云的云上资源紧密结合,仅能对云上环境实现完整的治理操作。对其他引擎,比如Hadoop,当前仅支持部分核心流程,我们会在后续版本中实现对Hadoop体系治理需求的完整支持。

2、治理和研发更紧密结合,确保资源治理效果。当前治理只是对负责人进行提示,在团队规模大、数据体量大的时候,比较难有较强的约束力。后续会支持严格模式,开启后,当个人浪费资源过多,健康分过低时,会直接跳转到治理模块,完成资源的治理后,才能执行新的开发任务,从而真正保证每个人都有成本意识,让企业真正实现降本增效。


更多详细内容参考:

1、Dataphin资源治理产品手册

2、EB级别数据资产如何高效管理

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
24天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
68 1
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
98 1
|
2月前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
447 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
23天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
55 2
|
1月前
|
机器学习/深度学习 运维 Kubernetes
AllData数据中台核心菜单三:数据平台(K8S)
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
AllData数据中台核心菜单三:数据平台(K8S)
|
1月前
|
存储 运维 物联网
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
长安汽车智能化研究院致力于汽车智能化技术研究,通过构建基于云器科技Lakehouse一体化数据平台,解决了高并发、大规模车联网数据处理难题,实现了数据实时写入、高效分析和成本优化,助力汽车智能驾驶、网联和交通全面发展。
54 0
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
|
1月前
|
存储 机器学习/深度学习 人工智能
AllData数据中台核心菜单二:数据平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
4月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute是由阿里巴巴集团创建的
【7月更文挑战第1天】
152 58
|
3月前
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
133 3
|
3月前
|
机器学习/深度学习 搜索推荐 算法
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
飞天大数据平台产品问题之AIRec在阿里巴巴飞天大数据平台中的功能如何解决
下一篇
无影云桌面