数据湖实操讲解【数据迁移】第三讲:如何将 HDFS 海量文件归档到OSS

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 数据湖 JindoFS+OSS 实操干货 36讲 每周二16点准时直播!扫文章底部二维码入钉群,线上准时观看~Github链接: https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_overview.md

本期导读 :【数据迁移】第三讲

主题:如何将 HDFS 海量文件归档到 OSS
讲师:辰石,阿里巴巴计算平台事业部 EMR 技术专家
内容框架:
  • 背景介绍
  • 具体功能详解
  • 使用实例
直播回放链接:(3/4讲)

https://developer.aliyun.com/live/246750

背景简述

640.png

HDFS 数据迁移

  • 用户需要将数据存储在 IDC 机房的 HDFS 的集群内。
  • HDFS 的集群的空间依赖本地磁盘空间,本地磁盘空间有限,但是业务数据不断增长。
  • 计算存储分离虽然可以不用担心存储容量,但是对象存储相关性能可能不及本地 HDFS 性能。
  • 业务数据的时效性,业务数据随时间迁移数据价值也会相对降低,从而导致数据的存储成本上升。

HDFS 数据存储成本

640 (1).png
考虑到实际使用 HDFS 会有3副本以及一定的预留空间,我们以 HDFS 3 副本、80% 使用率进行成本计算, 参考 https://www.aliyun.com/price/product#/ecs/detail

HDFS / OSS 存储成本对比

640 (2).png
OSS 归档数据的存储成本只有 HDFS 数据存储成本的 20% , OSS冷归档的存储不到 HDFS 数据存储的 10%

具体详解

HDFS 数据归档

Jindo DistCp 工具

  • 全量支持 HDFS / OSS / S3 之间的的数据拷贝场景
  • 重点优化 HDFS / OSS 数据拷贝场景,支持 No-Rename 拷贝
  • 支持 DistCp 过程数据 CheckSum 校验

⭐具体可参考 Github:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md

通过 DistCp 工具选项 —— policy 指定数据存储类型

/ 选项说明
标准(standard) 数据迁移到OSS标准存储,可读
低频(ia) 数据迁移到OSS低频存储,可读
归档(archive) 数据迁移到OSS归档存储,不可直接读取
冷归档(coldArchive) 数据迁移到OSS冷归档存储,不可直接读取

HDFS 数据迁移命令

  • 写入低频数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10

  • 写入归档数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10

  • 写入冷归档数据

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10

HDFS 命令查看数据类型

  • HDFS LS2 扩展命令

hdfs –fs –ls2 oss://xxxxx/xxxxx

  • 可参考详细介绍链接

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_hdfsToOss_pre.md

演示操作

  • 准备测试脚本,包含 DistCp 到OSS 各种存储类型的文件,测试文件大小为10M
  • 执行测试脚本进行数据拷贝
  • 查看 OSS 数据的存储类型

640 (3).png

直接观看视频回放,获取实例讲解~https://developer.aliyun.com/live/246750


⭐Github链接:
https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!
新建项目 (6).jpg

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
8天前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
66 34
|
2月前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
65 2
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
|
2月前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
45 3
|
2月前
|
分布式计算 Java Hadoop
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
41 2
|
2月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
38 1
|
2月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
53 1
|
4月前
|
存储 分布式计算 Hadoop
|
5月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
4月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决