自建Hadoop数据迁移到阿里云EMR

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。客户在决定上云之后,会将自建Hadoop集群的数据迁移到阿里云自建部署架构图 Hadoop集群或者EMR集群。本实践方案提供安全和低成本的HDFS数据迁移方案。

作者:云魁、连辙

最佳实践概述

应用场景

客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。但是由于自建HDFS空间限制无法保存长期数据,或者客户有Hadoop集群迁移上云的需求。本实践方案提供如下场景的最佳实践:

基于IPSec VPN隧道 + DistCp(Hadoop原生工具),将数据迁移到阿里云EMR集群,目标存储包括HDFS,阿里云OSS和阿里云EMR的Jindo

技术架构

本实践方案基于如下图所示的技术架构和主要流程编写操作步骤:
image.png

方案优势

  • 安全性
    基于IPSec VPN/专线的方式进行数据安全传输。
  • 低成本
    在阿里云创建Hadoop类型的EMR集群和自建Hadoop集群相比有一定成本优势,同时阿里云EMR可以使用OSS作为底层存储空间,进一步降低成本。

在进行本文操作之前,您需要完成以下准备工作:

  • 拥有阿里云实名认证账号。
  • 拥有已经通过备案的域名。
  • 保证账号余额大于100元人民币。
  • 开通ECS、OSS、EMR和VPN网关等服务。

资源规划说明

  • 本方案实践的资源规划仅作为实践演示,实际业务场景资源以用户实际需求为准。
  • 本实践方案中,涉及到阿里云资源开通和购买,本文后续实例中不单独展示服务开通相关操作,请使用者自行完成。
  • 本实践方案在使用过程中,大致流程和实际操作所需的时长如下(不包含文档阅读时间),供使用者参考:
    image.png

1. 自建Hadoop集群环境搭建

本实践方案中,使用上海VPC环境模拟客户IDC网络,主要安装以下组件:

(1) 在ECS上安装FlexGW VPN,用于模拟客户IDC网络中的VPN网关;
(2) 在ECS上安装Apache日志模拟器,用于生成Apache格式的日志信息;
(3) 在ECS上安装Kafka,用于集中存储Flume发送的日志;
(4) 在ECS上安装3节点的Hadoop集群,其中的HDFS用于集中保存日志数据信息。

1.1. 创建VPC网络

步骤1 登录专有网络VPC产品控制台
步骤2 单击创建专有网络。
image.png
步骤3 在创建专有网络页面,参考下表,配置专有网络和交换机相关参数,并单击确定。
image.png
image.png
image.png
步骤4 等待专有网络和交换机创建成功后,单击完成。

1.2. 批量创建ECS实例

创建ECS实例
步骤1 登录上海区域的ECS产品控制台
步骤2 单击右上角的创建实例。
步骤3自定义购买模式下,配置相关参数。
参考下表,配置基础配置相关内容。
image.png
配置完成,单击下一步:网络和安全组
image.png
单击查看历史价格 ,在抢占式实例历史价格走势图中,可以看到可用区F的实例当前市场价格为0.034,因此,我们设置单台上限价为0.04,要求略高于当前市场价格。
image.png
image.png
步骤4 在网络和安全组页面,参考下表,配置相关参数。
image.png
配置完成,单击下一步:系统配置。
image.png
步骤5 在系统配置页面,参考下表,配置相关参数。
image.png
配置完成,单击确认订单
image.png
步骤6 在确认订单页面,确认各项参数信息。确认无误,阅读、同意并勾选《云服务器ECS服务条款》和《镜像商品使用条款》,并单击创建实例。
image.png
步骤7 创建任务提交成功后,单击管理控制台前往ECS实例列表页面查看详情。为了在控制台便于识别ECS的用途,首先将实例名称修改为如下图所示:image.png
image.png
步骤8 将Kafka队列和FlexGW VPN这两个实例关机,将系统盘更换为云市场的镜像,节省基础环境部署时间。
image.png
image.png
步骤9 首先为FlexGW VPN网关实例更换系统盘。

  1. 单击实例操作列下的更多 > 磁盘和镜像 > 更换操作系统。
    image.png
  2. 单击右下角确定,更换系统盘按钮。
    image.png
  3. 选择镜像市场,单击从镜像市场选择(含操作系统)。
    image.png
  4. 在搜索框中输入flexgw,定位到FlexGW IPsec VPN服务器企业版,并单击使用。
    image.png
  5. 选择自定义密码,并设置登录密码。
    image.png

步骤10 参考步骤9为Kafka队列实例更换系统盘,选择下面的镜像。
image.png

(可选)配置安全组

在实例所在安全组中确认22、80和443端口的放通情况,如果有未放通端口,请按照下面步骤进行放通。
步骤1 在ECS控制台,单击FlexGW VPN网关实例操作列下的管理 。
步骤2 在左侧导航栏单击本实例安全组。
image.png
步骤3 单击对应安全组操作列下的配置规则。
image.png
步骤4 在入方向页签下,单击快速创建规则。
image.png
步骤5 在快速创建规则对话框中,根据下图配置相关参数,并单击确定 。
image.png

因篇幅原因,余下内容请点击原文链接阅读


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
1月前
|
机器学习/深度学习 分布式计算 大数据
阿里云 EMR Serverless Spark 在微财机器学习场景下的应用
面对机器学习场景下的训练瓶颈,微财选择基于阿里云 EMR Serverless Spark 建立数据平台。通过 EMR Serverless Spark,微财突破了单机训练使用的数据规模瓶颈,大幅提升了训练效率,解决了存算分离架构下 Shuffle 稳定性和性能困扰,为智能风控等业务提供了强有力的技术支撑。
154 15
|
20天前
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
|
11天前
|
SQL 存储 OLAP
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
阿里云 EMR Serverless StarRocks3.x,极速统一的湖仓新范式
|
11天前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
|
2月前
|
SQL 弹性计算 分布式计算
阿里云 EMR 发布托管弹性伸缩功能,支持自动调整集群大小,最高降本60%
阿里云开源大数据平台 E-MapReduce 重磅推出托管弹性伸缩功能,基于 EMR 托管弹性伸缩功能,您可以指定集群的最小和最大计算限制,EMR 会持续对与集群上运行的工作负载相关的关键指标进行采样,自动调整集群大小,以获得最佳性能和资源利用率。
149 15
|
5月前
|
SQL 存储 缓存
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
本文介绍了阿里云EMR StarRocks在数据湖分析领域的应用,涵盖StarRocks的数据湖能力、如何构建基于Paimon的实时湖仓、StarRocks与Paimon的最新进展及未来规划。文章强调了StarRocks在极速统一、简单易用方面的优势,以及在数据湖分析加速、湖仓分层建模、冷热融合及全链路ETL等场景的应用。
403 8
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
|
5月前
|
SQL 存储 缓存
降本60% ,阿里云 EMR StarRocks 全新发布存算分离版本
阿里云 EMR Serverless StarRocks 现已推出全新存算分离版本,该版本不仅基于开源 StarRocks 进行了全面优化,实现了存储与计算解耦架构,还在性能、弹性伸缩以及多计算组隔离能力方面取得了显著进展。
560 6
|
5月前
|
SQL 存储 缓存
阿里云EMR StarRocks X Paimon创建 Streaming Lakehouse
讲师焦明烨介绍了StarRocks的数据湖能力,如何使用阿里云EMR StarRocks构建基于Paimon的极速实时湖仓,StarRocks与Paimon的最新进展及未来规划。
211 3
|
6月前
|
SQL 分布式计算 Serverless
阿里云 EMR Serverless Spark 版正式开启商业化
阿里云 EMR Serverless Spark 版正式开启商业化,内置 Fusion Engine,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供 Notebook 及 SQL 开发、调试、发布、调度、监控诊断等一站式数据开发体验!
249 3
阿里云 EMR Serverless Spark 版正式开启商业化
|
5月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
162 3