基于阿里云部署的 CDP-阿里云开发者社区

开发者社区> 阿里云Cloudera企业数据云> 正文

基于阿里云部署的 CDP

简介: 阿里云和 Cloudera 展开密切合作,在阿里云的公有云上提供开箱即用的 CDP 平台,使得用户可以根据自己的需求,在阿里云上启用安全、合规和高可用的 CDP 平台,充分利用 CDP 平台的功能和阿里云的灵活性,来降低客户管理平台的复杂性,从而快速实现业务。
+关注继续查看

阿里云和 Cloudera 展开密切合作,在阿里云的公有云上提供开箱即用的 CDP 平台,使得用户可以根据自己的需求,在阿里云上启用安全、合规和高可用的 CDP 平台,充分利用 CDP 平台的功能和阿里云的灵活性,来降低客户管理平台的复杂性,从而快速实现业务。


选择合适的集群是在阿里云平台上使用 CDP 的第一步。CDP 配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性、安全等要求,还要考虑企业预算。


一、CDP节点类型

Cloudera 建议在生产环境中部署 CDP 多达四种机器类型:


  • 主节点-主要运行 Hadoop 主守护程序,例如 NameNode, Standby NameNode, YARN Resource Manager and History Server, the HBase Master daemon, Ranger server, Atlas Server, and the Impala StateStore Server and Catalog Server。主节点也是 Zookeeper 和 JournalNodes 的安装位置。守护程序可以共享一个服务器池。根据集群大小、角色可以在专用服务器上运行。Kudu Master Servers 也应该部署在主节点上。生产集群建议打开高可用 HA,生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用,在后续使用过程中开启高可用功能。Master 节点主要用来存储 HDFS 元数据和组件 Log 文件,属于计算密集型,对磁盘 IO 要求不高。HDFS 元数据存储在内存中,建议根据文件数量选择32 GB以上内存空间。
  • 工作节点-主要用来存储数据和执行计算,运行 HDFS DataNode,、YARN NodeManager、HBase RegionServer、Impala impalad、Search worker daemons 和 Kudu Tablet Servers。推荐使用 SSD 云盘存储数据。
  • 工具节点-运行 Cloudera Manager 和 Cloudera Management Services。它还可以运行托管的 MariaDB(或其他受支持的)数据库实例,Cloudera Manager、Hive、Ranger 和其他与 Hadoop 相关的项目将使用该数据库实例。
  • 边缘节点-包含所有面向客户端的配置和服务,包括 HDFS、YARN、Impala、Hive 和 HBase 的网关配置。Hue、 Oozie、 HiveServer2 和 Impala HAProxy、 HiveServer2 和 Impala HAProxy server 充当通往外部应用程序(如商务智能(BI)工具)的网关也部署在边缘节点上。边缘节点也称为网关节点。


注意:在较小的集群中边缘和工具节点可以合并在一起。


阿里云上的 CDP 存储目前支持 ESSD 云盘。底层存储目前支持 HDFS 和 Kudu。HDFS 的数据可用性由云盘或本地盘存储的可靠性来保证。


二、CDP 集群角色分布

没有启用 HA 的3-10个工作节点角色分配

image.png

启用 HA 的3-20个工作节点角色分配

lQLPDhrMAT-guyHNBKLNA-iwNo7glLZt7z8Be3wAUgBPAA_1000_1186.png

三、设置对基于阿里云部署的 CDP 的访问权限

在阿里云或者内外网环境中,Cloudera 的平台产品 CDP 需要访问很多 Web UI,但系统网络可能仅支持 SSH 访问(22端口)。要访问 Cloudera Manager(7180端口)或者其他服务,可以通过下列两种方式:

  • 在客户端计算机上设置 SOCKS(套接字安全协议)代理。Cloudera 建议您使用此选项。
  • 将 CDP/CDP 部署到阿里云之后,将入站规则添加到阿里云实例中的网络安全组。


配置 SOCKS 代理

SOCKS5 协议是作为客户端和服务器进程实现的,它可以遍历IP网络防火墙。配置 SOCKS 代理后,浏览器使用公有云网络(通过代理服务器)解析 DNS 查找,并允许您使用内部 FQDN 或专用 IP 地址连接到服务。


使用这种方法,您可以完成以下任务:

  • 设置到网络上主机之一的单个 SSH 隧道,并在主机上创建 SOCKS 代理。
  • 更改浏览器配置,以通过 SOCKS 代理主机执行所有查找。


网络先决条件

在使用 SOCKS 代理连接到集群之前,请验证以下先决条件:

  • 您必须能够从公共 Internet 或您要从其连接的网络中访问要代理的主机。
  • 您要代理的主机必须与您要连接的 Cloudera 服务位于同一网络上。例如,如果您使用的是 Cloudera CDP 产品,请通过 SSH 隧道连接到 Cloudera Manager 主机。


启动 SOCKS 代理

Linux

要通过 SSH 启动 SOCKS 代理,请运行以下命令:

ssh -i your-key-file.pem -CND 1080 
the_username_you_specified@publicIP_of_VM

该命令使用以下参数:

  • -i your-key-file.pem 指定 SSH 到 Cloudera CDP/EDH 服务器所需的私钥的路径。如果使用 SSH 密码,则省略。
  • C 设置压缩。
  • N 建立后禁止执行任何命令。
  • D 在端口上设置SOCKS代理。
  • 1080 用于在本地设置 SOCKS 代理的端口。

Windows

按照 Microsoft 网站上的说明进行操作。

参考链接:https://docs.microsoft.com/zh-cn/archive/blogs/pliu/ssh-tunnel-to-endpoints-in-azure-vnet-from-windows


配置 Google Chrome 浏览器以使用代理

默认情况下,Chrome 浏览器会按配置文件使用系统范围的代理设置。要在没有这些设置的情况下启动 Chrome,请通过命令行打开 Chrome并 指定以下内容:

  • SOCKS 代理端口。该端口必须与启动代理时使用的端口相同。
  • 配置文件。下面的示例创建了一个新的配置文件。


使用以下命令之一创建配置文件并启动与当前任何正在运行的 Chrome 实例不冲突的 Chrome 的新实例。

Linux

/usr/bin/google-chrome \
--user-data-dir="$HOME/chrome-with-proxy" \ 
--proxy-server="socks5://localhost:1080"

Mac OS X

"/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" \ 
--user-data-dir="$HOME/chrome-with-proxy" \ 
--proxy-server="socks5://localhost:1080"

微软Windows

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" ^ 
--user-data-dir="%USERPROFILE%\chrome-with-proxy" ^ 
--proxy-server="socks5://localhost:1080"

在此 Chrome 会话中,您可以使用私有 IP 地址或内部 FQDN 连接到 Cloudera CDP 可访问的任何主机。


这样就可以通过内网访问 Cloudera Manager 和其他 Web UI 了

image.png

也可以通过 CM 中的 web UI 跳转直接跳转过去。

image.png

网络安全组

警告:除概念验证以外,不建议将此方法用于任何其他目的。如果没有仔细锁定数据,那么黑客和恶意实体将可以访问这些数据。





点击链接参与阿里云CDP限时免费测试啦~

https://survey.aliyun.com/apps/zhiliao/owtTaIQU3


钉钉扫描下方二维码加入阿里云 Cloudera 企业数据云交流群一起参与讨论吧!

lADPJxDjvPGb9xjNA97NAu4_750_990.jpg

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
6800 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
2728 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4356 0
使用OpenApi弹性释放和设置云服务器ECS释放
云服务器ECS的一个重要特性就是按需创建资源。您可以在业务高峰期按需弹性的自定义规则进行资源创建,在完成业务计算的时候释放资源。本篇将提供几个Tips帮助您更加容易和自动化的完成云服务器的释放和弹性设置。
7721 0
阿里云服务器安全组设置内网互通的方法
虽然0.0.0.0/0使用非常方便,但是发现很多同学使用它来做内网互通,这是有安全风险的,实例有可能会在经典网络被内网IP访问到。下面介绍一下四种安全的内网互联设置方法。 购买前请先:领取阿里云幸运券,有很多优惠,可到下文中领取。
9397 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
5374 0
腾讯云服务器 设置ngxin + fastdfs +tomcat 开机自启动
在tomcat中新建一个可以启动的 .sh 脚本文件 /usr/local/tomcat7/bin/ export JAVA_HOME=/usr/local/java/jdk7 export PATH=$JAVA_HOME/bin/:$PATH export CLASSPATH=.
2116 0
13
文章
1
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载