一个助Hadoop集群数据快速上云工具

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上。

背景

越来越多的公司和企业希望将业务迁移到云上,同时业务数据也希望能更顺畅的迁移到云上。

当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上。

在阿里云上使用最广泛的存储服务是OSS对象存储。OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上,但这个工具无法读取Hadoop文件系统的数据,无法发挥Hadoop分布式的特点。并且因为工具只支持本地文件,所以需要将HDFS上的文件先下载到本地,再通过工具上传,整个过程耗时又耗力。

工具介绍

本文介绍一个从Hadoop集群直接迁移数据到OSS上的工具,该工具由阿里云E-MapReduce团队开发,基于Hadoop社区中常用的DistCp工具,并从E-MapReduce产品中剥离出了一个常见的功能,做成工具开放给全体阿里云客户使用。

0) 环境准备
确保当前机器可以正常访问你的Hadoop集群,也就是说,可以用hadoop命令访问HDFS:
hadoop fs -ls /

1) 下载和安装:
下载附件中的emr-tools.tar.gz工具,并解压缩到本地目录:
tar jxf emr-tools.tar.bz2

2) HDFS数据复制到OSS上:
cd emr-tools
./hdfs2oss4emr.sh /path/on/hdfs oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss

其中accessKeyId和accessKeySecret是你访问阿里云API(包括OSS等云产品)的密钥,bucket-name.oss-cn-hangzhou.aliyuncs.com是OSS的访问域名,包括bucket名称和所在Region的endpoint地址。如果参数都正确,则会启动一个Hadoop MapReduce任务(DistCp),作业运行完毕之后会打印本次数据迁移的信息:

17/05/04 22:35:08 INFO mapreduce.Job: Job job_1493800598643_0009 completed successfully
17/05/04 22:35:08 INFO mapreduce.Job: Counters: 38

    File System Counters
            FILE: Number of bytes read=0
            FILE: Number of bytes written=859530
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
            HDFS: Number of bytes read=263114
            HDFS: Number of bytes written=0
            HDFS: Number of read operations=70
            HDFS: Number of large read operations=0
            HDFS: Number of write operations=14
            OSS: Number of bytes read=0
            OSS: Number of bytes written=258660
            OSS: Number of read operations=0
            OSS: Number of large read operations=0
            OSS: Number of write operations=0
    Job Counters
            Launched map tasks=7
            Other local map tasks=7
            Total time spent by all maps in occupied slots (ms)=60020
            Total time spent by all reduces in occupied slots (ms)=0
            Total time spent by all map tasks (ms)=30010
            Total vcore-milliseconds taken by all map tasks=30010
            Total megabyte-milliseconds taken by all map tasks=45015000
    Map-Reduce Framework
            Map input records=10
            Map output records=0
            Input split bytes=952
            Spilled Records=0
            Failed Shuffles=0
            Merged Map outputs=0
            GC time elapsed (ms)=542
            CPU time spent (ms)=14290
            Physical memory (bytes) snapshot=1562365952
            Virtual memory (bytes) snapshot=17317421056
            Total committed heap usage (bytes)=1167589376
    File Input Format Counters
            Bytes Read=3502
    File Output Format Counters
            Bytes Written=0
    org.apache.hadoop.tools.mapred.CopyMapper$Counter
            BYTESCOPIED=258660
            BYTESEXPECTED=258660
            COPY=10

copy from /path/on/hdfs to oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss does succeed !!!

作业完成后,可以用osscmd等工具查看OSS上数据情况:

osscmd ls oss://bucket-name/path/on/oss

3) OSS数据复制到HDFS:
同样的,如果已经在阿里云上搭建了Hadoop集群,可以方便的把数据从OSS上迁移到新的Hadoop集群

./hdfs2oss4emr.sh oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss /path/on/new-hdfs

4) 其他说明:
这个工具同时兼容Hadoop 2.4.x、2.5.x、2.6.x、2.7.x等版本,如果有其他Hadoop版本兼容性的需求,可以直接联系我们。

更多使用场景

除了线下的集群,阿里云ECS上搭建的Hadoop集群也可以用这个工具,借助它可以很方便的将自建集群迁移到阿里云E-MapReduce服务上。E-MapReduce是由阿里云专业的大数据团队提供的Hadoop/Spark服务,提供了包括集群管理、作业管理、Hive表管理、监控报警等丰富的功能,将客户从繁琐的Hadoop集群运维工作中解放出来。当前阿里云E-MapReduce服务在ECS机器费用之外并没有额外收费,可以直接创建集群使用。

如果你现有集群已经在阿里云上ECS上,但是在经典网络中,无法和VPC中的服务做很好的互操作,所以想把集群迁移到VPC中。此时,你可以先用本工具迁移数据到OSS上,然后需在VPC环境中新建一个集群(自建或使用E-MapReduce服务),再将数据从OSS上迁移到新的HDFS集群中。

如果你使用E-MapReduce服务,还可以直接在Hadoop集群中通过SparkMapReduceHive等组件访问OSS,这样不仅可以减少一次数据复制(从OSS到HDFS),还可以极大的降低存储成本(详见云栖社区博客

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
2月前
|
存储 分布式计算 资源调度
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
Hadoop入门基础(三):如何巧妙划分Hadoop集群,全面提升数据处理性能?
|
1月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
46 3
Hadoop集群配置https实战案例
|
11天前
|
分布式计算 Hadoop Java
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
本文是一份详细的Hadoop集群搭建指南,基于Hadoop 3.3.4版本和CentOS 8操作系统。文章内容包括虚拟机创建、网络配置、Java与Hadoop环境搭建、克隆虚拟机、SSH免密登录设置、格式化NameNode、启动Hadoop集群以及通过UI界面查看Hadoop运行状态。同时,还提供了常见问题的解决方案。
Hadoop集群搭建,基于3.3.4hadoop和centos8【图文教程-从零开始搭建Hadoop集群】,常见问题解决
|
1月前
|
机器学习/深度学习 分布式计算 安全
Hadoop集群常见报错汇总
这篇博客总结了Hadoop集群中可能遇到的各种常见错误,包括Kerberos认证问题、配置错误、权限问题等,并为每个问题提供了详细的错误复现、原因分析以及相应的解决方案。
54 1
Hadoop集群常见报错汇总
|
1月前
|
资源调度 分布式计算 运维
Hadoop集群资源管理篇-资源调度器
详细介绍了Hadoop集群资源管理中的资源调度器,包括资源分配的概念、大数据运维工程师如何管理集群工作负载、资源调度器的背景、Hadoop提供的FIFO、容量调度器和公平调度器三种资源调度器的概述以及它们之间的对比。
77 4
|
1月前
|
分布式计算 监控 Hadoop
监控Hadoop集群实战篇
介绍了监控Hadoop集群的方法,包括监控Linux服务器、Hadoop指标、使用Ganglia监控Hadoop集群、Hadoop日志记录、通过Hadoop的Web UI进行监控以及其他Hadoop组件的监控,并提供了相关监控工具和资源的推荐阅读链接。
51 2
|
2月前
|
机器学习/深度学习 存储 分布式计算
Hadoop高可用集群搭建
Hadoop高可用集群搭建
|
2月前
|
存储 分布式计算 负载均衡
|
2月前
|
存储 分布式计算 资源调度
Hadoop集群的扩展性与容错能力
【8月更文第28天】Hadoop 是一种用于处理和存储大规模数据集的开源软件框架。它由两个核心组件构成:Hadoop 分布式文件系统 (HDFS) 和 MapReduce 计算框架。Hadoop 的设计考虑了可扩展性和容错性,使其成为大规模数据处理的理想选择。
53 0
|
2月前
|
存储 分布式计算 Hadoop
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错
【Azure 存储服务】Hadoop集群中使用ADLS(Azure Data Lake Storage)过程中遇见执行PUT操作报错
下一篇
无影云桌面