• 关于

    高速存储系统如何搭建

    的搜索结果

回答

本文档介绍如何将开源HDFS的数据平滑地迁移到文件存储HDFS。 背景信息 当前业界有很多公司是以Hadoop技术构建数据中心,而越来越多的公司和企业希望将业务顺畅地迁移到云上。文件存储HDFS可以帮助您实现将开源HDFS的数据迁移到云上,并允许您在云上就像在Hadoop分布式文件系统中管理和访问数据。 适用范围 非阿里云Hadoop集群中的数据迁移到文件存储HDFS。 阿里云ECS自建Hadoop集群中的数据迁移到文件存储HDFS。 准备工作 在阿里云ECS创建Hadoop集群。 如果您目前的Hadoop集群是搭建在阿里云VPC网络上的阿里云ECS集群,则无需在阿里云ECS上创建新的Hadoop集群。 创建和挂载文件系统至阿里云ECS上的Hadoop集群,并将文件存储HDFS设置为fs.defaultFS,详情请参见文件存储HDFS快速入门。 验证文件系统和计算节点之间的连通性。 执行以下命令,在文件存储HDFS上创建目录(如:/dfs_links)。 hadoop fs -mkdir /dfs_links 执行以下命令,验证连通性。 hadoop fs -ls dfs://f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com:10290/dfs_links 其中f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com为文件存储HDFS挂载点域名,请根据您的实际情况进行修改。 如果命令正常执行无输出结果,则表示连通成功。如果连通失败,请参见创建文件系统实例后,为什么无法访问文件存储HDFS?进行排查。 准备迁移工具。 您可以通过Hadoop社区标准的Distcp工具实现全量或增量的HDFS数据迁移,详细的Distcp工具使用说明请参见Hadoop Distcp 工具官方说明文档。 说明 使用Distcp命令将旧集群数据迁移至文件存储HDFS时,请注意文件存储HDFS不支持以下参数,其它参数使用和Hadoop Distcp 工具官方说明文档一致。文件存储HDFS及命令行存在限制的详细信息请参见使用限制。 参数 描述 状态 -p[rbpax] r:replication,b:block-size,p:permission,a:ACL,x:XATTR 不可用 非阿里云自建Hadoop集群数据迁移 非阿里云自建Hadoop集群数据迁移到文件存储HDFS包括以下两种情况。 非阿里云自建Hadoop集群与文件存储HDFS可以实现网络互通时, 请按照以下方法进行数据迁移。 使用阿里云高速通道产品建立原集群和文件存储HDFS所在VPC网络的连通,详情请参见专线上云方案介绍。 新旧集群实现网络互通后,执行以下命令迁移数据。 hadoop distcp -m 1000 -bandwidth 30 hdfs://oldclusterip:8020/user/hive/warehouse dfs://f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com:10290/user/hive/warehouse 其中oldclusterip为原自建Hadoop集群namenode的IP地址或者域名,f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com为文件存储HDFS挂载点域名,请根据您的实际情况进行修改。 说明 为减轻现有集群资源压力,建议确保新旧集群网络连通后,在新挂载文件系统的阿里云Hadoop集群上执行数据迁移命令。 非阿里云自建Hadoop集群与文件存储HDFS无法实现网络互通时,请按照以下方法进行数据迁移。 将非阿里云自建Hadoop集群数据迁移到对象存储OSS,详情请参见离线迁移教程。 将对象存储OSS数据迁移到文件存储HDFS,详情请参见文件存储HDFS和对象存储OSS双向数据迁移。 阿里云ECS自建Hadoop集群数据迁移 阿里云ECS自建Hadoop集群数据迁移到文件存储HDFS时,包括以下两种情况: 阿里云ECS自建Hadoop集群处于经典网络环境时,请按照以下方法进行数据迁移。 通过阿里云ECS的ClassicLink建立ClassicLink连接,详情请参见建立 ClassicLink 连接。 执行以下命令迁移数据。 hadoop distcp -m 1000 -bandwidth 30 hdfs://oldclusterip:8020/user/hive/warehouse dfs://f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com:10290/user/hive/warehouse 其中oldclusterip为原自建Hadoop集群namenode的IP地址或者域名,f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com为文件存储HDFS挂载点域名,请根据您的实际情况进行修改。 阿里云ECS自建Hadoop集群处于VPC网络环境时,请按照以下方法进行数据迁移。 阿里云ECS自建Hadoop集群处于VPC网络环境时,可以直接通过VPC网络迁移数据到文件存储HDFS。迁移命令如下所示: hadoop distcp -m 1000 -bandwidth 30 hdfs://oldclusterip:8020/user/hive/warehouse dfs://f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com:10290/user/hive/warehouse 其中oldclusterip为原自建Hadoop集群namenode的IP或者域名,f-xxxxxxxxxxxxxxx.cn-xxxxxxx.dfs.aliyuncs.com为文件存储HDFS挂载点域名,请根据您的实际情况进行修改。 常见问题 整体迁移速度受Hadoop集群与文件存储HDFS之间的带宽、集群规模影响。同时文件越多,checksum需要的时间越长。如果迁移数据量大,建议先尝试迁移几个目录评估下整体时间。如果只能在指定时间段内迁移数据,可以将目录切为几个小目录,依次迁移。 一般全量数据同步时,需要一个短暂的业务停写过程,用来启用双写双算或直接将业务切换到新集群上。 迁移过程出现异常提示:Cannot obtain block length for LocatedBlock。 从原生的HDFS往对象存储OSS/文件存储HDFS迁移数据时,可能会遇到这个问题。遇到该问题时,请执行hdfs fsck / –openforwrite命令,检查当前是否有文件处于写入状态尚未关闭。 如果有处于写入状态的文件时,需判断文件是否有效。 如果文件无效,则直接删除文件。 hdfs rm 如果文件有效,则不能直接删除,请考虑恢复问题文件租约。 hdfs debug recoverLease -path -retries

1934890530796658 2020-03-31 02:36:06 0 浏览量 回答数 0

回答

本文介绍如何通过VPN网关的设置,实现本地数据中心访问阿里云文件存储NAS。 背景信息 对于一个地域(例如华东1)内创建的文件系统(NFS或者SMB),只支持挂载到同一地域内的ECS上。您在其他地域(例如华北1)内的ECS或者本地数据中心的服务器,无法直接挂载。只有通过建立不同VPC间或者本地数据中心和VPC间的高速通道才能实现跨地域或者在本地数据中心挂载文件系统,而部署高速通道存在高成本问题。 通过阿里云VPN网关服务,您可以完成本地数据中心到阿里云VPC的访问,以及不同地域VPC之间的互通。您可以通过VPN网关服务,实现以下两种方式的文件系统挂载。 挂载文件系统至本地数据中心 跨地域挂载文件系统至ECS 如果您在VPC内已使用一台ECS服务器搭建VPN网关,则还需在另一VPC内创建一个VPN网关进行连接,具体操作请参见跨地域挂载文件系统(已部署一台VPN网关)。如果您没有这样的环境,请分别在不同的VPC中创建VPN网关进行连接,具体操作请参见跨地域挂载文件系统(未部署VPN网关)。 网络拓扑如下所示。 拓扑图 使用VPN网关的优劣势如下所示。 优势 VPN解决了连通性的问题。 VPN提供安全的访问(通过IPsec实现加密通信)。 使用VPN与使用高速通道相比,客户的使用成本会有明显下降。 劣势 通过VPN访问文件系统时的I/O性能将受限于从IDC到VPC或者VPC之间的公网带宽和时延。 挂载文件系统至本地数据中心 创建文件系统和挂载点。 登录NAS控制台。 创建文件系统,详情请参见管理文件系统。 添加VPC类型的挂载点,详情请参见管理挂载点。 建立VPC到本地数据中心的连接,详情请参见建立VPC到本地数据中心的连接。 验证本地数据中心内的服务器和VPC内ECS或者文件系统挂载点的连通性。 登录阿里云VPC内一台无公网IP地址的ECS,并通过ping命令ping本地数据中心内一台服务器的私网IP地址,验证通信是否正常。 确认ping通后,在本地数据中心的服务器上挂载VPC内的文件系统,详情请参见挂载文件系统。 跨地域挂载文件系统(已部署一台VPN网关) 此处以处于不同地域的VPC 1和VPC 2为例进行说明。 创建文件系统和挂载点。 登录NAS控制台。 创建文件系统,详情请参见管理文件系统。 添加VPC类型的挂载点,详情请参见管理挂载点。 此处添加的是VPC 1内的挂载点。 在VPC 2内,使用一台ECS搭建VPN网关作为用户网关。 说明 该ECS需要有公网IP地址,才能与VPC1内的VPN网关建立连接。 如何使用ECS服务器搭建VPN网关,请参见相关教程,例如Using StrongSwan for IPSec VPN on CentOS 7。 建立VPC 1和 VPC 2内的VPN网关的连接。 登录专有网络控制台。 创建VPN连接,连接VPC 1和VPC 2内的VPN网关(即步骤 2中创建的用户网关),详情请参见创建IPsec连接。 在VPC 2内的其他ECS上添加静态路由,详情请参见配置VPN网关路由。 其中,目标网段为VPC 1的内网IP地址, 下一跳为VPC 2内的用户网关。 验证VPC1和VPC2内的ECS或者文件系统挂载点的连通性。 登录阿里云VPC 1内一台ECS,并通过ping命令 pingVPC 2内一台ECS的IP地址,验证通信是否正常。 确认ping通后,在VPC 2内的其他ECS上挂载VPC 1内的文件系统,详情请参见挂载文件系统。 跨地域挂载文件系统(未部署VPN网关) 此处以处于不同地域的VPC 1和VPC 2为例进行说明。 创建文件系统和挂载点。 登录NAS控制台。 创建文件系统,详情请参见管理文件系统。 添加VPC类型的挂载点,详情请参见管理挂载点。 此处添加的是VPC 1内的挂载点。 建立VPC 1和 VPC 2内的VPN网关的连接。 登录专有网络控制台。 分别在VPC 1和VPC 2内创建VPN网关,详情请参见创建VPN网关。 分别在VPC 1和VPC 2内创建用户网关,具体步骤请参见创建用户网关。 其中,IP地址为在VPC 1和VPC 2内创建的VPN网关的IP地址。 分别为VPC 1和VPC 2内的VPN网关添加路由,详情请参见配置VPN网关路由。 为VPC 1的VPN网关添加路由时,目标网段为VPC 2的内网IP地址,下一跳为VPC 1内的用户网关。 为VPC 2的VPN网关添加路由时,目标网段为VPC 1的内网IP地址,下一跳为VPC 2内的用户网关。 验证VPC 1和VPC 2内的ECS或者文件系统挂载点的连通性。 登录阿里云VPC 1内一台ECS,并通过ping命令pingVPC 2内一台ECS的IP地址,验证通信是否正常。 确认ping通后,在VPC 2内的ECS上挂载VPC 1内的文件系统,详情请参见挂载文件系统。

1934890530796658 2020-03-31 03:35:25 0 浏览量 回答数 0

问题

如何更优雅的使用VPC专有网络

李博 bluemind 2019-12-01 21:57:11 3369 浏览量 回答数 0

万券齐发助力企业上云,爆款产品低至2.2折起!

限量神券最高减1000,抢完即止!云服务器ECS新用户首购低至0.95折!

问题

如何更优雅的使用VPC专有网络

李博 bluemind 2019-12-01 21:57:12 3256 浏览量 回答数 1

问题

如何通过VPN网关实现从用户IDC或者跨地域挂载文件系统

云栖大讲堂 2019-12-01 22:10:43 1335 浏览量 回答数 0

问题

如何实现CDN加速OSS?

青衫无名 2019-12-01 21:38:48 1387 浏览量 回答数 0

问题

OSS一键开通CDN和实现域名设置上线完整体验

jack.cai 2019-12-01 20:59:14 14829 浏览量 回答数 4

问题

【教程免费下载】 MySQL DBA修炼之道

玄学酱 2019-12-01 22:08:05 2647 浏览量 回答数 1
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 2020阿里巴巴研发效能峰会 企业建站模板 云效成长地图 高端建站 阿里云双十一主会场 阿里云双十一新人会场 1024程序员加油包 阿里云双十一拼团会场 场景化解决方案 阿里云双十一直播大厅