HDFS 海量文件归档到 OSS | 学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 快速学习 HDFS 海量文件归档到 OSS。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲HDFS 海量文件归档到 OSS】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13963


HDFS 海量文件归档到 OSS

内容介绍

一、背景

二、功能介绍

三、演示

 

一、背景

1.pngHDFS 数据迁移
●用户需要将数据存储在 IDC 机房的 HDFS 的集群内。
HDFS的集群的空间依赖本地磁盘空间,本地磁盘空间有限,但是业务数据不断增长。
●计算存储分离虽然可以不用担心存储容量,但是对象存储相关性能可能不及本地HDFS 性能。
●业务数据的时效性,业务数据随时间迁移数据价值也会相对降低,从而导致数据的存储成本上升。

 

二、功能介绍

1.HDFS 数据归档

1Jindo DistCp 工具

●全量支持HDFS/OSS/S3之间的的数据拷贝场景。

●重点优化 HDFS/OSS 数据拷贝场景,支持 No- Rename 拷贝。

●支持 DistCp 过程数据 CheckSum 校验。https://github.com/aliyun/alibabacloud-indofs/blob/master/docs/indo distcp/indo-distcp-overview.md
2)通过 DistCp 工具选项--policy 指定数据存储类型

 

2.HDFS 数据迁移命令  

●写入低频数据 hadoop jar jindo-distcp-3.5.0.jar --src /data - dest os://destBuckev/ - ossKey yourkey -ossSecret yoursecret --ossEndPoint Ooss -cn-oo.aliyuncs .com --policy ia --parallelism 10
●写入归档数据 hadoop jar jindo- distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret -- ossEndPoint Oss -Cn-xx aliyuncs com --policy archive --parallelism 10
●写入冷归档数据 hadoop jar jindo- dstcp-.5.ar - -SrC /data --dest s/es/tuck/ -key youky--sSsceyoursecret ossEndPoint oss -cn x liuncs com -polio coldArchive -pralies 10

3.HDFS 命令查看数据类型  

HDFS LS2 扩展命令               hdfs-fs-s2 oss//xxxxx/xxxxx

●文档访问链接

https://qithub.com/aliyun/alibabacloud-jindofs/blob/master/docs/indo-distcp/jindo-distcp-hdtsToOss-pre.md

三、演示

操作:

●准备测试脚本,包含 DistCp OSS 各种存储类型的文件,测试文件大小为10M

●执行测试脚本进行数据拷贝。

●查看 OSS 数据的存储类型。

 

 

 

 

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
26天前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
86 34
|
3月前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
71 2
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
|
3月前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
52 3
|
3月前
|
分布式计算 Java Hadoop
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
51 2
|
3月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
48 1
|
3月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
60 1
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之上传素材文件不在同一地域的OSS,怎么上传多张图片
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
51 1
|
5月前
|
存储 分布式计算 Hadoop
|
5月前
|
存储 运维 Serverless
函数计算产品使用问题之OSS触发器是否可以只设置文件前缀
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
6月前
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

热门文章

最新文章