开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲:HDFS 海量文件归档到 OSS】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/833/detail/13963
HDFS 海量文件归档到 OSS
内容介绍
一、背景
二、功能介绍
三、演示
一、背景
HDFS 数据迁移
●用户需要将数据存储在 IDC 机房的 HDFS 的集群内。
●HDFS的集群的空间依赖本地磁盘空间,本地磁盘空间有限,但是业务数据不断增长。
●计算存储分离虽然可以不用担心存储容量,但是对象存储相关性能可能不及本地HDFS 性能。
●业务数据的时效性,业务数据随时间迁移数据价值也会相对降低,从而导致数据的存储成本上升。
二、功能介绍
1.HDFS 数据归档
(1)Jindo DistCp 工具
●全量支持HDFS/OSS/S3之间的的数据拷贝场景。
●重点优化 HDFS/OSS 数据拷贝场景,支持 No- Rename 拷贝。
●支持 DistCp 过程数据 CheckSum 校验。https://github.com/aliyun/alibabacloud-indofs/blob/master/docs/indo distcp/indo-distcp-overview.md
(2)通过 DistCp 工具选项--policy 指定数据存储类型
2.HDFS 数据迁移命令
●写入低频数据 hadoop jar jindo-distcp-3.5.0.jar --src /data - dest os://destBuckev/ - ossKey yourkey -ossSecret yoursecret --ossEndPoint Ooss -cn-oo.aliyuncs .com --policy ia --parallelism 10
●写入归档数据 hadoop jar jindo- distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret -- ossEndPoint Oss -Cn-xx aliyuncs com --policy archive --parallelism 10
●写入冷归档数据 hadoop jar jindo- dstcp-.5.ar - -SrC /data --dest s/es/tuck/ -key youky--sSsceyoursecret ossEndPoint oss -cn x liuncs com -polio coldArchive -pralies 10
3.HDFS 命令查看数据类型
●HDFS LS2 扩展命令 hdfs-fs-s2 oss://xxxxx/xxxxx
●文档访问链接
三、演示
操作:
●准备测试脚本,包含 DistCp 到 OSS 各种存储类型的文件,测试文件大小为10M。
●执行测试脚本进行数据拷贝。
●查看 OSS 数据的存储类型。