基于阿里云部署的 CDP

简介: 阿里云和 Cloudera 展开密切合作,在阿里云的公有云上提供开箱即用的 CDP 平台,使得用户可以根据自己的需求,在阿里云上启用安全、合规和高可用的 CDP 平台,充分利用 CDP 平台的功能和阿里云的灵活性,来降低客户管理平台的复杂性,从而快速实现业务。

阿里云Cloudera 展开密切合作,在阿里云的公有云上提供开箱即用的 CDP 平台,使得用户可以根据自己的需求,在阿里云上启用安全、合规和高可用的 CDP 平台,充分利用 CDP 平台的功能和阿里云的灵活性,来降低客户管理平台的复杂性,从而快速实现业务。


选择合适的集群是在阿里云平台上使用 CDP 的第一步。CDP 配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性、安全等要求,还要考虑企业预算。


一、CDP节点类型

Cloudera 建议在生产环境中部署 CDP 多达四种机器类型:


  • 主节点-主要运行 Hadoop 主守护程序,例如 NameNode, Standby NameNode, YARN Resource Manager and History Server, the HBase Master daemon, Ranger server, Atlas Server, and the Impala StateStore Server and Catalog Server。主节点也是 Zookeeper 和 JournalNodes 的安装位置。守护程序可以共享一个服务器池。根据集群大小、角色可以在专用服务器上运行。Kudu Master Servers 也应该部署在主节点上。生产集群建议打开高可用 HA,生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用,在后续使用过程中开启高可用功能。Master 节点主要用来存储 HDFS 元数据和组件 Log 文件,属于计算密集型,对磁盘 IO 要求不高。HDFS 元数据存储在内存中,建议根据文件数量选择32 GB以上内存空间。
  • 工作节点-主要用来存储数据和执行计算,运行 HDFS DataNode,、YARN NodeManager、HBase RegionServer、Impala impalad、Search worker daemons  和 Kudu Tablet Servers。推荐使用 SSD 云盘存储数据。
  • 工具节点-运行 Cloudera Manager 和 Cloudera Management Services。它还可以运行托管的 MariaDB(或其他受支持的)数据库实例,Cloudera Manager、Hive、Ranger 和其他与 Hadoop 相关的项目将使用该数据库实例。
  • 边缘节点-包含所有面向客户端的配置和服务,包括 HDFS、YARN、Impala、Hive 和 HBase 的网关配置。Hue、 Oozie、 HiveServer2 和 Impala HAProxy、 HiveServer2 和 Impala HAProxy server 充当通往外部应用程序(如商务智能(BI)工具)的网关也部署在边缘节点上。边缘节点也称为网关节点。


注意:在较小的集群中边缘和工具节点可以合并在一起。


阿里云上的 CDP 存储目前支持 ESSD 云盘。底层存储目前支持 HDFS 和 Kudu。HDFS 的数据可用性由云盘或本地盘存储的可靠性来保证。


二、CDP 集群角色分布

没有启用 HA 的3-10个工作节点角色分配

image.png

启用 HA 的3-20个工作节点角色分配

lQLPDhrMAT-guyHNBKLNA-iwNo7glLZt7z8Be3wAUgBPAA_1000_1186.png

三、设置对基于阿里云部署的 CDP 的访问权限

在阿里云或者内外网环境中,Cloudera 的平台产品 CDP 需要访问很多 Web UI,但系统网络可能仅支持 SSH 访问(22端口)。要访问 Cloudera Manager(7180端口)或者其他服务,可以通过下列两种方式:

  • 在客户端计算机上设置 SOCKS(套接字安全协议)代理。Cloudera 建议您使用此选项。
  • 将 CDP/CDP 部署到阿里云之后,将入站规则添加到阿里云实例中的网络安全组。


配置 SOCKS 代理

SOCKS5 协议是作为客户端和服务器进程实现的,它可以遍历IP网络防火墙。配置 SOCKS 代理后,浏览器使用公有云网络(通过代理服务器)解析 DNS 查找,并允许您使用内部 FQDN 或专用 IP 地址连接到服务。


使用这种方法,您可以完成以下任务:

  • 设置到网络上主机之一的单个 SSH 隧道,并在主机上创建 SOCKS 代理。
  • 更改浏览器配置,以通过 SOCKS 代理主机执行所有查找。


网络先决条件

在使用 SOCKS 代理连接到集群之前,请验证以下先决条件:

  • 您必须能够从公共 Internet 或您要从其连接的网络中访问要代理的主机。
  • 您要代理的主机必须与您要连接的 Cloudera 服务位于同一网络上。例如,如果您使用的是 Cloudera CDP 产品,请通过 SSH 隧道连接到 Cloudera Manager 主机。


启动 SOCKS 代理

Linux

要通过 SSH 启动 SOCKS 代理,请运行以下命令:

ssh -i your-key-file.pem -CND 1080 
the_username_you_specified@publicIP_of_VM

该命令使用以下参数:

  • -i your-key-file.pem 指定 SSH 到 Cloudera CDP/EDH 服务器所需的私钥的路径。如果使用 SSH 密码,则省略。
  • C 设置压缩。
  • N 建立后禁止执行任何命令。
  • D 在端口上设置SOCKS代理。
  • 1080 用于在本地设置 SOCKS 代理的端口。

Windows

按照 Microsoft 网站上的说明进行操作。

参考链接:https://docs.microsoft.com/zh-cn/archive/blogs/pliu/ssh-tunnel-to-endpoints-in-azure-vnet-from-windows


配置 Google Chrome 浏览器以使用代理

默认情况下,Chrome 浏览器会按配置文件使用系统范围的代理设置。要在没有这些设置的情况下启动 Chrome,请通过命令行打开 Chrome并 指定以下内容:

  • SOCKS 代理端口。该端口必须与启动代理时使用的端口相同。
  • 配置文件。下面的示例创建了一个新的配置文件。


使用以下命令之一创建配置文件并启动与当前任何正在运行的 Chrome 实例不冲突的 Chrome 的新实例。

Linux

/usr/bin/google-chrome \
--user-data-dir="$HOME/chrome-with-proxy" \ 
--proxy-server="socks5://localhost:1080"

Mac OS X

"/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" \ 
--user-data-dir="$HOME/chrome-with-proxy" \ 
--proxy-server="socks5://localhost:1080"

微软Windows

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" ^ 
--user-data-dir="%USERPROFILE%\chrome-with-proxy" ^ 
--proxy-server="socks5://localhost:1080"

在此 Chrome 会话中,您可以使用私有 IP 地址或内部 FQDN 连接到 Cloudera CDP 可访问的任何主机。


这样就可以通过内网访问 Cloudera Manager 和其他 Web UI 了

image.png

也可以通过 CM 中的 web UI 跳转直接跳转过去。

image.png

网络安全组

警告:除概念验证以外,不建议将此方法用于任何其他目的。如果没有仔细锁定数据,那么黑客和恶意实体将可以访问这些数据。





点击链接参与阿里云CDP限时免费测试啦~

https://survey.aliyun.com/apps/zhiliao/owtTaIQU3


钉钉扫描下方二维码加入阿里云 Cloudera 企业数据云交流群一起参与讨论吧!

lADPJxDjvPGb9xjNA97NAu4_750_990.jpg

相关文章
【推荐】排序模型的评价指标nDCG
nDCG(Normalized Discounted Cumulative Gain)归一化折损累计增益是一种用于评估排序模型性能的指标,它考虑了两个方面:排序的正确性和相关性的程度。
3349 0
|
存储 监控 大数据
阿里云实时计算Flink在多行业的应用和实践
本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践,对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术,并且提供一些在技术架构上的参考建议。
1421 7
阿里云实时计算Flink在多行业的应用和实践
|
11月前
|
供应链 监控 Oracle
SCM供应链管理的核心要素及常用工具详解
理解供应链管理的7大关键要素,并借助专业的软件工具,企业可以更加高效地管理各个环节,提升整体运营效率。
1438 3
SCM供应链管理的核心要素及常用工具详解
|
安全 Java
如何在 Java 中创建自定义安全管理器
在Java中创建自定义安全管理器需要继承SecurityManager类并重写其方法,以实现特定的安全策略。通过设置系统安全属性来启用自定义安全管理器,从而控制应用程序的访问权限和安全行为。
283 1
|
12月前
|
编解码 缓存 算法
视频帧里的I帧、P帧、B帧是什么?
I帧、P帧、B帧是视频编码中的基本概念。I帧是帧内编码帧,无需参考其他帧即可解码;P帧是前向预测编码帧,基于前一帧解码;B帧是双向预测编码帧,基于前后帧解码。IDR帧是一种特殊的I帧,用于即时解码刷新,防止错误传播。GOP(Group of Pictures)是一组连续的画面,第一个帧为I帧,gop_size设置越大,画质越好,但解码延迟增加。OpenGOP允许GOP间的帧依赖,而ClosedGOP则不允许。DTS(解码时间戳)和PTS(显示时间戳)分别用于解码和显示时间控制。
|
OLAP 数据处理 Apache
众安保险 CDP 平台:借助阿里云数据库 SelectDB 版内核 Apache Doris 打破数据孤岛,人群圈选提速4倍
众安保险在CDP(Customer Data Platform,客户数据平台)建设中,通过引入阿里云数据库SelectDB版内核Apache Doris,成功打破了数据孤岛,并显著提升了人群圈选的速度
457 1
|
Kubernetes 负载均衡 网络协议
在k8S中,Headless Service是什么?
在k8S中,Headless Service是什么?
|
SQL 数据管理 BI
SQL 有哪些版本?
SQL 有哪些版本?
1086 4
|
网络协议 测试技术 网络安全
Python进行Socket接口测试的实现
在现代软件开发中,网络通信是不可或缺的一部分。无论是传输数据、获取信息还是实现实时通讯,都离不开可靠的网络连接和有效的数据交换机制。而在网络编程的基础中,Socket(套接字)技术扮演了重要角色。 Socket 允许计算机上的程序通过网络进行通信,它是网络通信的基础。Python 提供了强大且易于使用的 socket 模块,使开发者能够轻松地创建客户端和服务器应用,实现数据传输和交互。 本文将深入探讨如何利用 Python 编程语言来进行 Socket 接口测试。我们将从基础概念开始介绍,逐步引导大家掌握创建、测试和优化 socket 接口的关键技能。希望本文可以给大家的工作带来一些帮助~
|
网络协议 Linux 网络安全
Linux命令hostnamectl:掌握系统主机信息的利器
`hostnamectl`是Linux系统管理的关键工具,用于查看和设置主机名、内核信息等。它集成在`systemd`中,通过修改配置文件交互。命令特点包括综合显示多种信息、简单语法和设置功能。例如,`hostnamectl status`显示系统详情,`sudo hostnamectl set-hostname NEWHOSTNAME`用于更改主机名。使用时注意权限、备份配置、更新网络和重启相关服务,避免频繁更改。