数据湖实操讲解【数据迁移】第四讲:如何将 Hive 数据按分区归档到 OSS

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~ Github链接: https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md

本期导读 :【数据迁移】第四讲

主题:如何将 Hive 数据按分区归档到 OSS
讲师:健身,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
  • 背景/具体功能介绍
  • 实现原理详解
  • 使用实例
直播回放链接:(3/4讲)

https://developer.aliyun.com/live/246750

一、背景/功能简述

传统集群架构

  • 存储计算一体
  • 存储量与计算量无法始终匹配
  • 存储无法水平扩展
  • 存储与计算竞争硬盘资源

640 (4).png

存储分层架构

  • 计算资源动态伸缩
  • 存储资源使用云存储作为 HDFS 的替代或补充
  • 相比存算分离架构,对于已有 HDFS 数据比较平滑,可以逐渐过渡到存算分离架构

640 (5).png

数据仓库

  • 数据仓库是大数据的典型场景
  • 每天的 ETL 作业新增大量数据
  • Hive 支持分区表,使用分区可以快速裁剪数据
  • Hive 数仓中大量 Hive 表以时间日期作为分区字段
  • 在数仓中很多表的较老的日期分区平常一般不会被访问,可以考虑把这部分数据移出 HDFS
  • Hive 的每个分区都有自己的 storagedescriptor,可以有单独的存储路径

分区表的结构

partitioned_table_xx

  • dt=2021-05-16/category=1/
  • dt=2021-05-16/category=2/
  • dt=2021-05-16/category=5/
  • dt=2021-05-16/category=8/
  • dt=2021-05-15/category=2/
  • dt=2021-05-15/category=3/
  • dt=2021-05-15/category=4/
  • ……

使用 JindoTable 按分区归档数据

  • 在本地盘机型上,HDFS 可以提供较好的性能,对集群已有存储空间也能较好利用
  • 一般情况下用不到的数据移动到 OSS,释放集群存储空间,减小NameNode 压力
  • 需要读取这部分数据时,也可以直接从 OSS 读取,不影响上层作业
  • 每天 ETL 完成后可以移动数据

⭐具体文档下载和参考见 Github:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md

二、实现原理

  • Jindodistcp 作为底层工具
  • 使用 jindodistcp 事务模式
  • 使用 HDFS 文件锁保证同一时间每个分区只有一个作业在操作
  • 先修改分区元数据再清理 hdfs 数据确保数据可用

640 (6).png

三、使用示例

Dingtalk_20210519151931.jpg

640 (7).png

数据准备

640 (8).png

移动分区字段 ds 大于 ‘b’的分区

640 (9).png

检查移动后的分区情况

640 (10).png

直接观看视频回放,获取实例讲解~https://developer.aliyun.com/live/246750


⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!
新建项目 (6).jpg

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
7月前
|
关系型数据库 分布式数据库 PolarDB
PolarDB常见问题之polardb归档到oss后如何恢复
PolarDB是阿里云推出的下一代关系型数据库,具有高性能、高可用性和弹性伸缩能力,适用于大规模数据处理场景。本汇总囊括了PolarDB使用中用户可能遭遇的一系列常见问题及解答,旨在为数据库管理员和开发者提供全面的问题指导,确保数据库平稳运行和优化使用体验。
|
SQL HIVE
Hive分区+根据分区查询
Hive分区+根据分区查询
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
58 3
|
4月前
|
SQL 存储 HIVE
hive分区与分桶
hive分区与分桶
51 1
|
5月前
|
SQL DataWorks 监控
DataWorks产品使用合集之同步数据到Hive时,如何使用业务字段作为分区键
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 DataWorks 调度
MaxCompute产品使用合集之如何将数据迁移到CDH Hive
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在进行Hive分区truncate操作时遇到权限不足,怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
76 0
|
6月前
|
SQL 关系型数据库 HIVE
sqoop笔记——一次从Hive到PostgreSql的数据迁移
sqoop笔记——一次从Hive到PostgreSql的数据迁移
275 0
|
7月前
|
SQL 存储 HIVE
Hive中的动态分区是什么?请解释其作用和使用场景。
Hive中的动态分区是什么?请解释其作用和使用场景。
128 0
|
7月前
|
SQL 存储 Apache
流数据湖平台Apache Paimon(四)集成 Hive 引擎
流数据湖平台Apache Paimon(四)集成 Hive 引擎
472 0
下一篇
无影云桌面