数据湖实操讲解【数据迁移】第四讲:如何将 Hive 数据按分区归档到 OSS

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md

本期导读 :【数据迁移】第四讲

主题:如何将 Hive 数据按分区归档到 OSS
讲师:健身,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
  • 背景/具体功能介绍
  • 实现原理详解
  • 使用实例
直播回放链接:(3/4讲)

https://developer.aliyun.com/live/246750

一、背景/功能简述

传统集群架构

  • 存储计算一体
  • 存储量与计算量无法始终匹配
  • 存储无法水平扩展
  • 存储与计算竞争硬盘资源

640 (4).png

存储分层架构

  • 计算资源动态伸缩
  • 存储资源使用云存储作为 HDFS 的替代或补充
  • 相比存算分离架构,对于已有 HDFS 数据比较平滑,可以逐渐过渡到存算分离架构

640 (5).png

数据仓库

  • 数据仓库是大数据的典型场景
  • 每天的 ETL 作业新增大量数据
  • Hive 支持分区表,使用分区可以快速裁剪数据
  • Hive 数仓中大量 Hive 表以时间日期作为分区字段
  • 在数仓中很多表的较老的日期分区平常一般不会被访问,可以考虑把这部分数据移出 HDFS
  • Hive 的每个分区都有自己的 storagedescriptor,可以有单独的存储路径

分区表的结构

partitioned_table_xx

  • dt=2021-05-16/category=1/
  • dt=2021-05-16/category=2/
  • dt=2021-05-16/category=5/
  • dt=2021-05-16/category=8/
  • dt=2021-05-15/category=2/
  • dt=2021-05-15/category=3/
  • dt=2021-05-15/category=4/
  • ……

使用 JindoTable 按分区归档数据

  • 在本地盘机型上,HDFS 可以提供较好的性能,对集群已有存储空间也能较好利用
  • 一般情况下用不到的数据移动到 OSS,释放集群存储空间,减小NameNode 压力
  • 需要读取这部分数据时,也可以直接从 OSS 读取,不影响上层作业
  • 每天 ETL 完成后可以移动数据

⭐具体文档下载和参考见 Github:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md

二、实现原理

  • Jindodistcp 作为底层工具
  • 使用 jindodistcp 事务模式
  • 使用 HDFS 文件锁保证同一时间每个分区只有一个作业在操作
  • 先修改分区元数据再清理 hdfs 数据确保数据可用

640 (6).png

三、使用示例

Dingtalk_20210519151931.jpg

640 (7).png

数据准备

640 (8).png

移动分区字段 ds 大于 ‘b’的分区

640 (9).png

检查移动后的分区情况

640 (10).png

直接观看视频回放,获取实例讲解~https://developer.aliyun.com/live/246750


⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!
新建项目 (6).jpg

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
6月前
|
关系型数据库 分布式数据库 PolarDB
PolarDB常见问题之polardb归档到oss后如何恢复
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
6月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
131 2
|
3月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
3月前
|
存储 缓存 数据管理
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
|
12月前
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46813 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
6月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
6月前
|
存储 人工智能 运维
【云原生企业级数据湖:打破数据孤岛,优化存储成本】
【云原生企业级数据湖:打破数据孤岛,优化存储成本】 随着大数据时代的到来,企业对于数据的处理和存储需求日益增长。如何有效地存储和管理大量数据,同时降低运维成本,成为了企业面临的一大挑战。盛通教育的云原生企业级数据湖方案,正是为了解决这一问题而设计的。
208 1
|
6月前
|
SQL 分布式计算 Apache
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
214 0
|
6月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
130 2
|
6月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
249 1