开发者社区> 鸿初> 正文

用Aliyun E-MapReduce集群的sqoop工具和数据库同步数据如何配置网络

简介: 如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。 一.RDS 经典网络RDS 想要访问经典网络RDS,EMR(E-MapReduce,下同)最好也指定用经典网络。 经典网络的RDS
+关注继续查看

如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。

一.RDS

经典网络RDS

想要访问经典网络RDS,EMR(E-MapReduce,下同)最好也指定用经典网络。

经典网络的RDS 可以设置内网地址和外网地址。由于经典网络EMR集群只有master节点可以访问公网,并且sqoop是用map任务同步数据可能在任意节点上运行,所以sqoop任务需要配置连接RDS的内网地址来连接。另外,需要确保EMR集群的内网ip在RDS白名单里。

图1. RDS内网地址
rds_

图2. EMR创建集群指定经典网络类型
_

VPC网络RDS

如果RDS在VPC网络下,EMR集群也需要指定用VPC网络。最好让EMR集群和RDS在同一个vpc网络内,这样可以直接访问RDS地址。如果在不同的vpc网络下,需要通过高速通道打通网络连接。

图3. EMR创建集群指定VPC网络
vpc_

二. ecs自建数据库

经典网络

访问经典网络的自建数据库跟经典网络的RDS类似,也需要EMR集群指定使用经典网络,访问自建数据库的内网地址。区别是需要将数据库所在的ecs实例和EMR集群的实例放在一个安全组内。可以在ecs控制台-安全组-管理实例将数据库ecs实例添加进EMR集群的安全组里。

图4. 加入安全组
_

VPC网络

访问VPC网络的自建数据库跟VPC网络的RDS类似,EMR集群指定使用VPC网络。额外要做的是将数据库ecs实例和EMR集群实例放到同一个安全组里

三. 云下私有数据库

有两种方式访问云下私有数据库,一种是绑定弹性IP(EIP)访问数据库的公网地址,一种是将云下数据库通过高速通道和VPC网络互联

绑定EIP

如果云下私有数据库可以通过公网访问,推荐EMR集群使用VPC网络。

创建一个VPC网络的EMR集群,创建成功后在ecs控制台给集群的每个ecs实例绑定一个EIP,就可以访问私有数据库的公网地址了。绑定的操作方式在ecs控制台-ecs实例后的管理-配置信息-更多-里面选择绑定弹性IP.

图5. 绑定弹性IP
_ip

高速通道

如果私有数据库不能在公网暴露,可以创建一个VPC网络类型的EMR集群,通过高速通道连接私有IDC和阿里云上的vpc集群。高速通道详情请参见
高速通道产品文档

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
E-MapReduce集群脚本-包年包月集群修改软件环境的利器
集群,特别是包年报月集群,在使用过程中,可能会有新的安装第三方软件,修改集群运行环境的需求。 E-MapReduce控制台1.5.0版本提供了集群脚本的功能,可以在集群创建好后批量选择节点,运行您指定的脚本,以实现个性化的需求。
1728 0
快速体验 Sentinel 集群限流功能,只需简单几步
️ Pic by Alibaba Tech on Facebook 集群限流 可以限制某个资源调用在集群内的总 QPS,并且可以解决单机流量不均导致总的流控效果不佳的问题,是保障服务稳定性的利器。 Sentinel 从 1.4.0 版本开始提供集群流控特性,但使用 Sentinel 集群限流需要对一系列的动态数据源进行相关配置,并且需要对开源控制台进行一些改造,有一定的使用成本。
14064 0
CentOS7安装Hadoop集群
http://www.jianshu.com/p/a69972d8a119 安装Hadoop之前,请先安装好zookeeper集群并启动 参考 CentOS7安装Zookeeper集群 我这里准备了三台服务器,一台主机名为hadoop1(做NameNo...
1236 0
Progress进度查看器是一个可以显示Linux命令的工具
Progress进度查看器是一个可以显示Linux命令的工具
488 0
发布一个开源的c++网络事件库【转载Zark@cppthinker.com】
Chaos是一个基于Linux平台, reactor模式的网络事件库, 目前仅支持TCP传输协议, 仅在x86_64下编译, 并遵循3-clause BSD开源协议. 在使用上, 可以说它很像boost asio, 可能是由于我对boost asio的接口设计很有爱吧, 而且对于boost asio...
971 0
CentOS7 搭建Ambari-Server,安装Hadoop集群(一)
2017-07-05:修正几处拼写错误,之前没发现,抱歉! 第一次在cnblogs上发表文章,效果肯定不会好,希望各位多包涵。 编写这个文档的背景是月中的时候,部门老大希望我们能够抽时间学习一下Hadoop大数据方面的技术;给我的学习内容是通过Ambari安装Hadoop集群。
2410 0
Netflix开源面向稀疏数据优化的轻量级神经网络库Vectorflow
在Netflix公司,我们的机器学习科学家在多个不同的领域处理着各种各样的问题:从根据你的爱好来定制电视和推荐电影,到优化编码算法。我们有一小部分问题涉及到处理极其稀疏的数据;手头问题的总维度数很容易就能达到数千万个特征,即使每次要看的可能只是少数的非零项。
4348 0
+关注
鸿初
阿里云-EMR团队成员,致力于推广开源大数据在云上的应用
21
文章
30
问答
来源圈子
更多
E-MapReduce是构建于阿里云ECS弹性虚拟机之上,利用开源大数据生态系统,包括Hadoop和Spark,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11
+ 订阅
相关文档: E-MapReduce
文章排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载