高效迁移 HDFS 海量文件到 OSS | 学习笔记

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 快速学习高效迁移 HDFS 海量文件到 OSS。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲高效迁移 HDFS 海量文件到 OSS】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13961


高效迁移 HDFS 海量文件到 OSS

 

内容介绍

一、DistCp 介绍

二、Jindo DistCp 介绍

三、性能优化

四、功能演示

 

一、DistCp 介绍

1.DistCp 的概念

DistCp (分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce 实现文件分发,错误处理和恢复,以及报告生成。

它把文件和目录的列表作为 map 任务的输入,每个任务会完成源列表中部分文件的拷贝。

 

2.DistCp 工具种类1.png


二、Jindo DistCp 介绍

1.Jindo DistCp 介绍

➢分布式文件拷贝工具,基于 MapReduce

➢支持多种数据源(HDFS/ OSS/ S3/ COS )

➢多种拷贝策略,功能对齐开源 Hadoop DistCp S3 DistCp

➢深度结合 OSS,基于 native 实现的 JindoFS SDK

➢优化 JobCommitter,性能领先开源工具

2.现有 HDFS 海量文件同步到 OSS 问题

➢文件数量规模大,百/千万级,开源 DistCp 超时/OOM

HDFS 拷贝到 OSS,效率较慢,Rename耗时

➢现有开源工具无法保证数据拷贝一致性

➢不支持传输时进行归档/冷存储等 OSS 特性

3.Jindo DistCp基于HDFS海量文件同步到 OSS 场景优化

➢分批 Batch,避免文件数过多/文件 size 过 大,造成超时/OOM

➢定制化 CopyCommitter,实现 No Rename 拷贝,并保证数据拷贝落地的-致性

➢大/小文件传输策略优化

➢基于 native 实现的 JindoFS SDK,优化读写 OSS 性能

 

三、性能优化:CopyCommitter - NoRename 拷贝

1.MapReduce JobCommitter

2.png2.Jindo CopyCommitter

基于对象存储系统的Multipart Upload,结合OSS文件系统层面的定制支持,可以实现在保证数据-致性前提下无需Rename操作的Job Committer实现。

3.png3.性能测试

Jindo DistCp Hadoop DistCp 的性能对比,在这个测试中以 HDFS OSS离线数据迁移为主要场景,利用Hadoop自带的测试数据 TestDFSIO 分别生成100010M1000500M 10001G 大小的文件进行从HDFS拷贝数据到OSS上的测试过程。

4.png4.访问链接:

httos://qithub.com/aliyun/alibabacloud-jindofs/blob/master/docs/indo distcp/indo distcp overview.md


四、功能演示

1.下载j indo-distcp-3.5.0.jar

2.jar 包拷贝到可提交 YARN 作业的节点上

3.选择 src dest 路径及合适的参数

hadoop jar jindo-distcp-3.5.0.jar - -src /data --dest ss://yang-ha/data --parallelism 10

4.执行命令

5.查看进度(命令行 WebUI)

相关实践学习
对象存储OSS快速上手——如何使用ossbrowser
本实验是对象存储OSS入门级实验。通过本实验,用户可学会如何用对象OSS的插件,进行简单的数据存、查、删等操作。
相关文章
|
12月前
|
Web App开发 监控 安全
OSS客户端签名直传实践:Web端安全上传TB级文件方案(含STS临时授权)
本文深入解析了客户端直传技术,涵盖架构设计、安全机制、性能优化等方面。通过STS临时凭证与分片上传实现高效安全的文件传输,显著降低服务端负载与上传耗时,提升系统稳定性与用户体验。
1102 2
|
消息中间件 监控 数据挖掘
【有奖实践】轻量消息队列(原 MNS)订阅 OSS 事件实时处理文件变动
当你需要对对象存储 OSS(Object Storage Service)中的文件变动进行实时处理、同步、监听、业务触发、日志记录等操作时,你可以通过设置 OSS 的事件通知规则,自定义关注的文件,并将 OSS 事件推送到轻量消息队列(原 MNS)的队列或主题中,开发者的服务即可及时收到相关通知,并通过消费消息进行后续的业务处理。
383 101
|
存储 运维 Serverless
函数计算产品使用问题之OSS触发器是否可以只设置文件前缀
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
运维 Serverless 对象存储
函数计算产品使用问题之如何配合OSS实现接口收到的图片或文件直接存入OSS
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
317 0
|
8月前
|
存储 人工智能 Cloud Native
阿里云渠道商:OSS与传统存储系统的差异在哪里?
本文对比传统存储与云原生对象存储OSS的架构差异,涵盖性能、成本、扩展性等方面。OSS凭借高持久性、弹性扩容及与云服务深度集成,成为大数据与AI时代的优选方案。
|
10月前
|
存储 运维 安全
阿里云国际站OSS与自建存储的区别
阿里云国际站对象存储OSS提供海量、安全、低成本的云存储解决方案。相比自建存储,OSS具备易用性强、稳定性高、安全性好、成本更低等优势,支持无限扩展、自动冗余、多层防护及丰富增值服务,助力企业高效管理数据。
|
10月前
|
存储 域名解析 前端开发
震惊!不买服务器,还可以用阿里云国际站 OSS 轻松搭建静态网站
在数字化时代,利用阿里云国际站OSS可低成本搭建静态网站。本文详解OSS优势及步骤:创建Bucket、上传文件、配置首页与404页面、绑定域名等,助你快速上线个人或小型业务网站,操作简单,成本低廉,适合初学者与中小企业。
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。