数据治理之数据生命周期管理

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据治理之数据生命周期管理

大数据业务系统,在运行过程中会产生大量历史数据,这些历史数据日积月累下来,除了增加集群的存储成本,也会影响大数据集群之上的应用系统的运行效率(因为整个大数据集群的hdfs, hive, hbase等存储引擎随着负担越来越大,其响应效率会有所降低)。

所以数据治理会强调对数据进行全生命周期的管理,既要考虑数据的采集获取,也要考虑数据的备份归档。我们不能因为大数据集群本身具有可横向扩展,容量大,单位存储成本低这些特点,就对数据 “只进不出”。因为缺少了治理的数据集合,再多也不能称为“数据湖泊”,而是“数据沼泽”,是不利于数据价值的分析挖掘的。

在大数据业界,对于数据的生命周期管理,普遍的做法是,根据业务特点,分析数据使用状况,将数据分为冷数据与热数据(更细致的还有温数据),然后对冷热数据采取不同的管理策略。常见的数据管理策略有:

  • 利用云对象存储的力量:将热数据保存在当前大数据集群中支撑当前的业务系统,而将冷数据备份到云对象存储如oss, s3上;
  • 冷热数据分集群存储:将热数据保存在当前大数据集群中支撑当前的业务系统,并搭建专门的冷数据集群,将冷数据转存到冷集群中;(冷集群更侧重存储能力,热集群更侧重计算能力,在集群底层服务器选型上各有侧重,从而均衡成本);
  • 利用hdfs本身提供的分级存储的策略:hdfs新版本本身(其实也不新了,从3.0开始就逐步完善这块了,详情见jira hdfs-2832,)也是支持tiered storage即分级存储的,可以对不同的目录,根据其数据冷热程度不同,动态配置不同的存储策略,从而存储到不同的底层存储介质上。可以使用的存储类型 storage types 有 archive, disk, ssd 和 ram_disk,可以配置的存储策略 storage policies 有 hot, warm, cold, All_SSD, One_SSD, Lazy_Persist and Provided。
  • 直接删除冷数据:当前的大数据集群只保存业务需要的数据,而将业务不需要的历史数据,定期通过脚本进行删除。这种方式,因为需要删除数据,所有只有在业务方确认数据确实不需要了,而且公司真个成本又有限的情况下,才会使用。

在某大数据系统的案例中,在跟客户充分沟通后,出于成本的考量,他们采用了第四条,即直接删除冷数据的方案(当然还有部分易操作性的考量)。

该方案的实现其实只是几条ddl语句,其调用方式和核心内容如下:

beeline -u jdbc:hive2://ip:10000 -hivevar hs_cic_db=${hs_cic} -hivevar clear_date=${clear_date} -f xxx.sql

xxx.sql 脚本内容如下:use ${hs_cic_db}; alter table xx drop if exists partition(part_date < ${clear_date});

进一步技术细节,可以参考:

https://issues.apache.org/jira/browse/HDFS-2832

https://hadoop.apache.org/docs/

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
监控 关系型数据库 MySQL
数据治理平台Datavines
【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。
345 10
|
SQL 存储 安全
浅谈数据治理
浅谈数据治理
140 0
|
数据采集 人工智能 数据管理
数据资产化的前提-浅谈数据治理体系的建设
数据资产化的前提-浅谈数据治理体系的建设
|
数据采集 SQL 机器学习/深度学习
DawnSql在数据治理中的优势
DawnSql数据治理平台的优势。1、降低成本 DawnSql 既是分布式数据库,也是离线数仓,也是实时数仓 DawnSql 既支持标准 Sql,也支持 NoSql,还支持自己定义的语言 DawnSql 是分布式缓存,支持对数学的实时反馈,提升业务对实时数据的价值 DawnSql 是分布式的服务平台,可以支持服务的负载均衡和故障转移 DawnSql 支持机器学习和扩展其方法 结论:DawnSql = 传统大数据平台 + MPP平台 + 微服务框架。
DawnSql在数据治理中的优势
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
487 0
|
存储 数据采集 安全
【数据治理】什么是数据治理模型?
【数据治理】什么是数据治理模型?
|
数据采集 存储 机器学习/深度学习
数据治理的三度修炼
所有企业都需要计划如何使用数据,以便在整个业务中一致地处理和使用数据,以支持业务结果。
数据治理的三度修炼
|
存储 数据采集 数据管理
说说数据治理中常见的20个问题
数据治理是一项战略计划,用于优化企业处理数据的方式。它旨在组织和改进公司用于定义、收集、存储、保护、管理和货币化业务数据的政策和程序。
|
数据采集 数据管理 数据挖掘
数据治理的一疑乙易
在数据爆炸式增长的时代,数据又成为重要的生产要素之一,数据治理就成为很多企业关注的重点。
|
存储 数据采集 传感器
关于数据治理需要知道的六件事
许多组织希望在整个企业中共享数据集,但如何迈出第一步可能很困难。这些挑战包括从纯技术问题(如数据格式和API)到组织文化(管理者拒绝共享他们认为自己拥有的数据)。
关于数据治理需要知道的六件事