基于阿里云部署的 CDP

简介: 阿里云和 Cloudera 展开密切合作,在阿里云的公有云上提供开箱即用的 CDP 平台,使得用户可以根据自己的需求,在阿里云上启用安全、合规和高可用的 CDP 平台,充分利用 CDP 平台的功能和阿里云的灵活性,来降低客户管理平台的复杂性,从而快速实现业务。

阿里云Cloudera 展开密切合作,在阿里云的公有云上提供开箱即用的 CDP 平台,使得用户可以根据自己的需求,在阿里云上启用安全、合规和高可用的 CDP 平台,充分利用 CDP 平台的功能和阿里云的灵活性,来降低客户管理平台的复杂性,从而快速实现业务。


选择合适的集群是在阿里云平台上使用 CDP 的第一步。CDP 配置选型不仅要考虑企业大数据使用场景、估算数据量、服务可靠性、安全等要求,还要考虑企业预算。


一、CDP节点类型

Cloudera 建议在生产环境中部署 CDP 多达四种机器类型:


  • 主节点-主要运行 Hadoop 主守护程序,例如 NameNode, Standby NameNode, YARN Resource Manager and History Server, the HBase Master daemon, Ranger server, Atlas Server, and the Impala StateStore Server and Catalog Server。主节点也是 Zookeeper 和 JournalNodes 的安装位置。守护程序可以共享一个服务器池。根据集群大小、角色可以在专用服务器上运行。Kudu Master Servers 也应该部署在主节点上。生产集群建议打开高可用 HA,生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用,在后续使用过程中开启高可用功能。Master 节点主要用来存储 HDFS 元数据和组件 Log 文件,属于计算密集型,对磁盘 IO 要求不高。HDFS 元数据存储在内存中,建议根据文件数量选择32 GB以上内存空间。
  • 工作节点-主要用来存储数据和执行计算,运行 HDFS DataNode,、YARN NodeManager、HBase RegionServer、Impala impalad、Search worker daemons  和 Kudu Tablet Servers。推荐使用 SSD 云盘存储数据。
  • 工具节点-运行 Cloudera Manager 和 Cloudera Management Services。它还可以运行托管的 MariaDB(或其他受支持的)数据库实例,Cloudera Manager、Hive、Ranger 和其他与 Hadoop 相关的项目将使用该数据库实例。
  • 边缘节点-包含所有面向客户端的配置和服务,包括 HDFS、YARN、Impala、Hive 和 HBase 的网关配置。Hue、 Oozie、 HiveServer2 和 Impala HAProxy、 HiveServer2 和 Impala HAProxy server 充当通往外部应用程序(如商务智能(BI)工具)的网关也部署在边缘节点上。边缘节点也称为网关节点。


注意:在较小的集群中边缘和工具节点可以合并在一起。


阿里云上的 CDP 存储目前支持 ESSD 云盘。底层存储目前支持 HDFS 和 Kudu。HDFS 的数据可用性由云盘或本地盘存储的可靠性来保证。


二、CDP 集群角色分布

没有启用 HA 的3-10个工作节点角色分配

image.png

启用 HA 的3-20个工作节点角色分配

lQLPDhrMAT-guyHNBKLNA-iwNo7glLZt7z8Be3wAUgBPAA_1000_1186.png

三、设置对基于阿里云部署的 CDP 的访问权限

在阿里云或者内外网环境中,Cloudera 的平台产品 CDP 需要访问很多 Web UI,但系统网络可能仅支持 SSH 访问(22端口)。要访问 Cloudera Manager(7180端口)或者其他服务,可以通过下列两种方式:

  • 在客户端计算机上设置 SOCKS(套接字安全协议)代理。Cloudera 建议您使用此选项。
  • 将 CDP/CDP 部署到阿里云之后,将入站规则添加到阿里云实例中的网络安全组。


配置 SOCKS 代理

SOCKS5 协议是作为客户端和服务器进程实现的,它可以遍历IP网络防火墙。配置 SOCKS 代理后,浏览器使用公有云网络(通过代理服务器)解析 DNS 查找,并允许您使用内部 FQDN 或专用 IP 地址连接到服务。


使用这种方法,您可以完成以下任务:

  • 设置到网络上主机之一的单个 SSH 隧道,并在主机上创建 SOCKS 代理。
  • 更改浏览器配置,以通过 SOCKS 代理主机执行所有查找。


网络先决条件

在使用 SOCKS 代理连接到集群之前,请验证以下先决条件:

  • 您必须能够从公共 Internet 或您要从其连接的网络中访问要代理的主机。
  • 您要代理的主机必须与您要连接的 Cloudera 服务位于同一网络上。例如,如果您使用的是 Cloudera CDP 产品,请通过 SSH 隧道连接到 Cloudera Manager 主机。


启动 SOCKS 代理

Linux

要通过 SSH 启动 SOCKS 代理,请运行以下命令:

ssh -i your-key-file.pem -CND 1080 
the_username_you_specified@publicIP_of_VM

该命令使用以下参数:

  • -i your-key-file.pem 指定 SSH 到 Cloudera CDP/EDH 服务器所需的私钥的路径。如果使用 SSH 密码,则省略。
  • C 设置压缩。
  • N 建立后禁止执行任何命令。
  • D 在端口上设置SOCKS代理。
  • 1080 用于在本地设置 SOCKS 代理的端口。

Windows

按照 Microsoft 网站上的说明进行操作。

参考链接:https://docs.microsoft.com/zh-cn/archive/blogs/pliu/ssh-tunnel-to-endpoints-in-azure-vnet-from-windows


配置 Google Chrome 浏览器以使用代理

默认情况下,Chrome 浏览器会按配置文件使用系统范围的代理设置。要在没有这些设置的情况下启动 Chrome,请通过命令行打开 Chrome并 指定以下内容:

  • SOCKS 代理端口。该端口必须与启动代理时使用的端口相同。
  • 配置文件。下面的示例创建了一个新的配置文件。


使用以下命令之一创建配置文件并启动与当前任何正在运行的 Chrome 实例不冲突的 Chrome 的新实例。

Linux

/usr/bin/google-chrome \
--user-data-dir="$HOME/chrome-with-proxy" \ 
--proxy-server="socks5://localhost:1080"

Mac OS X

"/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" \ 
--user-data-dir="$HOME/chrome-with-proxy" \ 
--proxy-server="socks5://localhost:1080"

微软Windows

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" ^ 
--user-data-dir="%USERPROFILE%\chrome-with-proxy" ^ 
--proxy-server="socks5://localhost:1080"

在此 Chrome 会话中,您可以使用私有 IP 地址或内部 FQDN 连接到 Cloudera CDP 可访问的任何主机。


这样就可以通过内网访问 Cloudera Manager 和其他 Web UI 了

image.png

也可以通过 CM 中的 web UI 跳转直接跳转过去。

image.png

网络安全组

警告:除概念验证以外,不建议将此方法用于任何其他目的。如果没有仔细锁定数据,那么黑客和恶意实体将可以访问这些数据。





点击链接参与阿里云CDP限时免费测试啦~

https://survey.aliyun.com/apps/zhiliao/owtTaIQU3


钉钉扫描下方二维码加入阿里云 Cloudera 企业数据云交流群一起参与讨论吧!

lADPJxDjvPGb9xjNA97NAu4_750_990.jpg

相关文章
|
存储 分布式计算 Hadoop
基于docker的Hadoop环境搭建与应用实践(脚本部署)
本文介绍了Hadoop环境的搭建与应用实践。对Hadoop的概念和原理进行了简要说明,包括HDFS分布式文件系统和MapReduce计算模型等,主要通过脚本的方式进行快捷部署,在部署完成后对HDFS和mapreduce进行了测试,确保其功能正常。
|
数据采集 机器学习/深度学习 算法
|
9月前
|
存储 人工智能 自然语言处理
LangChain RAG入门教程:构建基于私有文档的智能问答助手
本文介绍如何利用检索增强生成(RAG)技术与LangChain框架构建基于特定文档集合的AI问答系统。通过结合检索系统和生成机制,RAG能有效降低传统语言模型的知识局限与幻觉问题,提升回答准确性。文章详细展示了从环境配置、知识库构建到系统集成的全流程,并提供优化策略以改进检索与响应质量。此技术适用于专业领域信息检索与生成,为定制化AI应用奠定了基础。
3064 5
LangChain RAG入门教程:构建基于私有文档的智能问答助手
|
存储 SQL NoSQL
Doris数据仓库介绍
Doris数据仓库介绍
4522 14
|
安全 Java
如何在 Java 中创建自定义安全管理器
在Java中创建自定义安全管理器需要继承SecurityManager类并重写其方法,以实现特定的安全策略。通过设置系统安全属性来启用自定义安全管理器,从而控制应用程序的访问权限和安全行为。
340 1
|
网络协议 测试技术 网络安全
Python进行Socket接口测试的实现
在现代软件开发中,网络通信是不可或缺的一部分。无论是传输数据、获取信息还是实现实时通讯,都离不开可靠的网络连接和有效的数据交换机制。而在网络编程的基础中,Socket(套接字)技术扮演了重要角色。 Socket 允许计算机上的程序通过网络进行通信,它是网络通信的基础。Python 提供了强大且易于使用的 socket 模块,使开发者能够轻松地创建客户端和服务器应用,实现数据传输和交互。 本文将深入探讨如何利用 Python 编程语言来进行 Socket 接口测试。我们将从基础概念开始介绍,逐步引导大家掌握创建、测试和优化 socket 接口的关键技能。希望本文可以给大家的工作带来一些帮助~
|
SQL 存储 监控
Linux查看Hive进程
【8月更文挑战第17天】
417 1
|
算法 关系型数据库 MySQL
Mysql为何建议使用自增id作主键,有什么优点
Mysql为何建议使用自增id作主键,有什么优点
1762 1
|
机器学习/深度学习 数据采集 监控
探索机器学习中的数据偏见及其影响
在机器学习领域,数据偏见是一个日益受到关注的问题。本文通过分析数据偏见的来源、表现和对模型性能的影响,旨在揭示如何识别和减少这种偏见。文章首先定义了数据偏见并探讨了其产生的原因,接着通过案例分析了偏见对模型决策的具体影响,最后提出了几种减轻数据偏见的策略。研究指出,虽然完全消除数据偏见是极其困难的,但通过合理的数据处理和算法设计可以显著降低其负面影响。
|
存储 SQL 分布式计算
【阿里云 CDP 公开课】 第三讲:CDP 集群管理
Cloudera 和阿里云进行深度合作推出了基于阿里云部署的 Cloudera 企业数据云平台,即 CDP 平台。本文的主要内容是关于CDP的集群管理。Cloudera Manager 是全功能企业级集群管理平台,提供最佳的系统利用率并满足 SLA 承诺,覆盖集群所有资源与服务的统一配置、管理、监控、诊断等管理功能。
【阿里云 CDP 公开课】 第三讲:CDP 集群管理