CDP企业数据云产品详情-阿里云开发者社区

开发者社区> Cloudera大数据技术社区> 正文
登录阅读全文

CDP企业数据云产品详情

简介: 基于阿里云部署的CDP是部署在阿里云ECS集群上的集成的分析和数据管理平台,在该平台上提供广泛的数据分析和人工智能功能以及安全的用户访问和数据治理功能。

1.1.           产品亮点

1)    阿里云支持:使得用户在阿里云上使用CDP,获取CDP的功能和性能,同时实现最大的选择和灵活性。

2)    多功能分析:解决最苛刻的业务用例 –跨数据分析生命周期集成大数据管理和分析,为大规模地应用实时流处理、数据仓库、数据科学和迭代机器学习提供跨数据共享,可以随时随地的访问数据。

3)    安全性和治理:通过通用的安全模型来控制任何云(公有云、私有云和混合云)上的数据,简化了各种企业数据的数据隐私和合规性,在所有环境中提供安全性、合规性、数据迁移和元数据管理。

4)    开放:促进开源社区的创新、提供开放存储和计算架构的选择性以及促进广泛的生态系统的信心和灵活性,提供开放集成,可扩展架构以及对多个数据存储和计算架构开放。 

1.2.           产品说明

CDP平台不但提供企业级的安全性和治理能力,还同时提供多种分析功能用于数据分析,具备在内部和外部部署相同功能的能力,支持主要的公有云和私有云环境、使得用户获得弹性的云体验,并不再存在数据孤岛和单一供应商锁定的威胁。

image.png

CDP不但可以灵活地运行各种企业工作负载(例如:实时摄取和分析、数据工程、交互式SQL、企业搜索、高级分析和机器学习),还满足企业的要求:与企业现有的系统进行集成,同时提供强大的安全性、数据治理、数据保护和管理能力。CDP是企业数据管理的新兴中心。

CDP是Cloudera公司的最新产品,该新产品结合了Cloudera Enterprise Data Hub和Hortonworks Data Platform Enterprise的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。这种统一的发行是一个可扩展且可自定义的平台,您可以在其中安全地运行多种类型的工作负载。


除了需要企业数据云外,企业还希望将这种强大的数据管理基础架构迁移或添加到云中,以提高运营效率、降低成本、提供计算和容量灵活性以及速度和敏捷性。

随着组织在云环境中采用基于Hadoop的大数据部署,他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是CDP平台的一部分,下图展示了CDP平台的功能地图。

image.png

CDP支持各种混合解决方案,其中计算任务与数据存储分离,并且可以从远程集群访问数据。这种混合方法通过管理存储、表Schema、身份验证、授权和治理,并为容器化应用程序提供了基础。

CDP包括各种组件,例如Apache HDFS、Apache Hive 3、Apache HBase和Apache Impala,以及许多其他用于特殊工作负载的组件。您可以选择这些服务的任意组合来创建满足您的业务需求和工作负载的集群。几个预配置的服务包也可用于常见的工作负载。

Cloudera Manager是用于管理、配置和监控CDP集群和Cloudera Runtime服务的应用程序。

Cloudera Manager服务器在CDP部署中的主机上运行,并使用在集群中每个主机上运行的Cloudera Manager代理来管理一个或多个集群。

Cloudera Manager是用于管理集群的端到端应用程序。借助Cloudera Manager,您可以轻松地部署和集中操作完整的Cloudera Runtime堆栈和其他托管服务。该应用程序可自动执行安装和升级过程,并为您提供主机和正在运行的服务的整个群集的实时视图。Cloudera Manager管理控制台提供了一个中央控制台,您可以在其中对整个集群进行配置更改,并结合了各种报告和诊断工具来帮助您优化性能和利用率。Cloudera Manager还管理安全性和加密功能。使用Cloudera Manager管理控制台,您可以启动和停止集群以及单个服务、配置和添加新服务、管理安全性以及升级集群。您还可以使用Cloudera Manager API以编程方式执行管理任务。

Cloudera Manager的单个实例可以管理多个集群,包括较旧版本的Cloudera Runtime和CDH。

CDP还包括以下工具来管理和保护您的部署:

·         Cloudera Manager允许您使用Cloudera Manager管理控制台的Web应用程序或Cloudera Manager API管理、监控和配置集群和服务。

·         Apache Atlas提供了一组元数据管理和治理服务,使您能够管理CDP集群资产。

·         Apache Ranger通过用户界面管理访问控制,以确保CDP集群中一致的策略管理。

Cloudera Runtime是CDP Private Cloud Base中的核心开源软件发行版。Cloudera Runtime包括大约50个开源项目,这些项目构成CDP中数据管理工具的核心分发。

1.2.1.      CDH用户获得的新功能

1.2.2.      HDP用户获得的新功能

 

1.2.3.      CDP节点类型

Cloudera建议在生产环境中部署CDP多达四种机器类型:

·主节点-主要运行Hadoop主守护程序,例如NameNode, Standby NameNode, YARN Resource Manager and History Server, the HBase Master daemon, Ranger server, Atlas Server, and the Impala StateStore Server and Catalog Server。主节点也是Zookeeper和JournalNodes的安装位置。守护程序可以共享一个服务器池。根据集群大小、角色可以在专用服务器上运行。Kudu Master Servers也应该部署在主节点上。生产集群建议打开高可用HA,生产集群建议在创建集群的硬件配置步骤开启高可用。如果购买时未开启高可用,在后续使用过程中开启高可用功能。Master节点主要用来存储HDFS元数据和组件Log文件,属于计算密集型,对磁盘IO要求不高。HDFS元数据存储在内存中,建议根据文件数量选择32 GB以上内存空间。

·工作节点-主要用来存储数据和执行计算,运行HDFS DataNode,、YARN NodeManager、HBase RegionServer、Impala impalad、Search worker daemons 和Kudu Tablet Servers。推荐使用SSD云盘存储数据。

·工具节点-运行Cloudera Manager和Cloudera Management Services。它还可以运行托管的MariaDB(或其他受支持的)数据库实例,Cloudera Manager、Hive、Ranger和其他与Hadoop相关的项目将使用该数据库实例。

·边缘节点-包含所有面向客户端的配置和服务,包括HDFS、YARN、Impala、Hive和HBase的网关配置。Hue、 Oozie、 HiveServer2和Impala HAProxy、 HiveServer2 和Impala  HAProxy  server充当通往外部应用程序(如商务智能(BI)工具)的网关也部署在边缘节点上。边缘节点也称为网关节点。

注意:在较小的集群中边缘和工具节点可以合并在一起。

阿里云上的CDP存储目前支持ESSD云盘。底层存储目前支持HDFS和Kudu。HDFS的数据可用性由云盘或本地盘存储的可靠性来保证。

 

1.2.4.   CDP集群角色分布

没有启用HA的3-10个工作节点角色分配

主节点

工具节点

网关节点

工作节点

主节点1:

NameNode

YARN ResourceManager

JobHistory Server

ZooKeeper

Kudu master

Spark History Server

单一主机用于所有的工具和网关角色:

Secondary NameNode

Cloudera Manager

Cloudera Manager Management Service

Hive Metastore

HiveServer2

Impala Catalog Server

Impala StateStore

Hue

Oozie

Flume

Gateway configuration

HBase backup master

Ranger Admin, Tagsync, Usersync servers

Atlas server

Solr server

Streams Messaging Manager

Streams Replication Manager Service

ZooKeeper

3 - 10 工作节点:

DataNode

NodeManager

Impalad

Kudu tablet server

启用HA的3-20个工作节点角色分配

主节点

工具节点

网关节点

工作节点

主节点1:

NameNode

JournalNode

FailoverController

YARN ResourceManager

ZooKeeper

JobHistory Server

Kudu master

HBase master

Schema Registry

主节点2:

NameNode

JournalNode

FailoverController

YARN ResourceManager

ZooKeeper

Kudu master

HBase master

Schema Registry

主节点3:

Kudu master (Kudu 需要奇数节点来做HA.)

Spark History Server

JournalNode (需要专用磁盘)

ZooKeeper

工具节点1:

Cloudera Manager

Cloudera Manager Management Service

Cruise Control

Hive Metastore

Impala Catalog Server

Impala StateStore

Oozie

Ranger Admin, Tagsync, Usersync servers

Atlas server

Solr server

Streams Messaging Manager

Streams Replication Manager Service

工具节点2:

Ranger Admin server

Atlas server

Solr server

一个或者多个网关节点:

Hue

HiveServer2

Gateway configuration

3 - 20 工作节点:

DataNode

NodeManager

Impalad

Kudu tablet server

Kafka Broker (推荐最少3个brokers)

Kafka Connect

HBase RegionServer

Solr server (对于Cloudera Search, 推荐至少3 台服务器)

Streams Replication Manager Driver

1.3.           设置对基于阿里云部署的CDP的访问权限

在阿里云或者内外网环境中,Cloudera的平台产品CDP需要访问很多Web UI,但系统网络可能仅支持SSH访问(22端口)。要访问Cloudera Manager(7180端口)或者其他服务,可以通过下列两种方式:

·       在客户端计算机上设置SOCKS(套接字安全协议)代理。Cloudera建议您使用此选项。

·       将CDP/CDP部署到阿里云之后,将入站规则添加到阿里云实例中的网络安全组。

1.3.1.       配置SOCKS代理

SOCKS5协议是作为客户端和服务器进程实现的,它可以遍历IP网络防火墙。配置SOCKS代理后,浏览器使用公有云网络(通过代理服务器)解析DNS查找,并允许您使用内部FQDN或专用IP地址连接到服务。

使用这种方法,您可以完成以下任务:

  • 设置到网络上主机之一的单个SSH隧道,并在主机上创建SOCKS代理。
  • 更改浏览器配置,以通过SOCKS代理主机执行所有查找。

1.3.1.1.       网络先决条件

在使用SOCKS代理连接到集群之前,请验证以下先决条件:

  • 您必须能够从公共Internet或您要从其连接的网络中访问要代理的主机。
  • 您要代理的主机必须与您要连接的Cloudera服务位于同一网络上。例如,如果您使用的是Cloudera CDP产品,请通过SSH隧道连接到Cloudera Manager主机。

1.3.2.       启动SOCKS代理

1.3.2.1.             Linux

要通过SSH启动SOCKS代理,请运行以下命令:

ssh -i your-key-file.pem -CND 1080

the_username_you_specified@publicIP_of_VM

该命令使用以下参数:

  • -i your-key-file.pem指定SSH到Cloudera CDP/EDH服务器所需的私钥的路径。如果使用SSH密码,则省略。
  • C 设置压缩。
  • N 建立后禁止执行任何命令。
  • D 在端口上设置SOCKS代理。
  • 1080 用于在本地设置SOCKS代理的端口。

1.3.2.2.             Windows

按照Microsoft网站上说明进行操作

1.3.3.       配置Google Chrome浏览器以使用代理

默认情况下,Chrome浏览器会按配置文件使用系统范围的代理设置。要在没有这些设置的情况下启动Chrome,请通过命令行打开Chrome并指定以下内容:

  • SOCKS代理端口。该端口必须与启动代理时使用的端口相同。
  • 配置文件。下面的示例创建了一个新的配置文件。

使用以下命令之一创建配置文件并启动与当前任何正在运行的Chrome实例不冲突的Chrome的新实例。

1.3.3.1.             Linux

/usr/bin/google-chrome \

--user-data-dir="$HOME/chrome-with-proxy" \

--proxy-server="socks5://localhost:1080"

1.3.3.2.             Mac OS X

"/Applications/Google Chrome.app/Contents/MacOS/Google Chrome" \

--user-data-dir="$HOME/chrome-with-proxy" \

--proxy-server="socks5://localhost:1080"

1.3.3.3.             微软Windows

"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" ^

--user-data-dir="%USERPROFILE%\chrome-with-proxy" ^

--proxy-server="socks5://localhost:1080"

在此Chrome会话中,您可以使用私有IP地址或内部FQDN连接到Cloudera CDP可访问的任何主机。

这样就可以通过内网访问Cloudera Manager和其他Web UI了

image.png

也可以通过CM中的web UI跳转直接跳转过去。

image.png

1.3.4.    网络安全组

警告:除概念验证以外,不建议将此方法用于任何其他目的。如果没有仔细锁定数据,那么黑客和恶意实体将可以访问这些数据。

1.4.           用例场景

CDP提供全球首个企业数据云的愿景和战略,使我们的客户能够管理从Edge到AI的整个数据生命周期。

image.png

通过对用户的数据分析使用场景进行分析,发现所有的数据分析都可以归纳为这样六个步骤,六个步骤为:

1)         数据收集–边缘端的数据摄取和监控(边缘端可能是工业传感器,也可能是实体零售店中的人员或者终端服务器等)

2)         数据丰富–能实现处理、聚合和管理的数据管道,准备数据以进行进一步完善

3)         报告–提供企业的业务见解(例如:销售分析和预测、市场研究、预算编制)

4)         服务–控制和运行基本的业务操作 (例如:ATM交易、零售结帐或生产监控)

5)         预测分析–基于AI和机器学习的预测分析(例如:欺诈检测、预测性维护、基于需求的库存优化为例)

6)         安全与治理–在整个数据生命周期中的一组集成的安全、管理和治理技术

通过这六个步骤,能够管理从Edge到AI的整个数据生命周期,使得企业能够在同一个平台上进行整个数据生命周期的分析,避免产生各种数据孤岛,减少了数据在不同平台之间的移动时间,从而加速用户的业务实现。

image.png

企业里面有各种各样的数据,包括实时数据和非实时交易数据,包括结构化数据、半结构化数据和非结构化数据、以及外部数据等等;这些数据通过企业数据云提供的完整的数据分析生命周期能力进行数据收集、数据加工、然后提供各种各样数据的使用,包括分析报表、数据服务和机器学习;通过企业数据云的支持,企业就可以在上面去构建各种各样的用例,在制造业中例如预测性维护、供应链优化、全面优化等,在金融业有客户画像、风控等,在零售业有交叉营销、客户推荐等用例。

1.4.1.      现代数据仓库

构建现代化数据仓库来替代传统数据仓库以解决企业对数据来源、数据量及数据服务时效的需求,使得现代化数据仓库可以使用强大的自助服务工具来为数千名BI分析用户提供支持,同时系统提供快速和大规模的向导和自动化管理工具,并且存储所有的数据(包括各种类型和数据量的数据)。


1.4.2.       流式消息处理

Apache Kafka是一个高性能、高可用性的冗余流消息平台,可以替代更传统的消息代理。消息代理的使用有多种原因(将数据生成和处理分离,缓冲未处理的消息等)。与大多数消息传递系统相比,Kafka具有更好的吞吐量、内置分区、复制和容错功能,这使其成为大规模消息处理应用程序的理想解决方案。

在CDP中提供了Kafka及其周边的小伙伴,来使得Kafka更易用,更好用。

image.png

该图是一种简化的动态数据参考架构,在边缘端显示为Apache MiNiFi,它从移动资产中提取了机器生成的数据。Apache NiFi收集数据并转换、解析和过滤到Kafka的主题,以便Apache Flink/Spark Streaming等流处理引擎和其他应用程序可以快速构建和运行分析。

1)         使用CDP7.1,您将获得最新的Kafka服务。

2)         Kafka Connect支持可用于增强与HDFS、S3和Kafka Streams的连接。可以直接将Kafka的数据写入到对应的存储中。

3)         Schema Registry将在整个Kafka集群中存储和访问您的Schema。它与Apache Ranger集成,来支持对Schema Registry的访问控制。

4)         Stream Replication Manager可实现业务连续性,该业务连续性支持您的Kafka群集的复制,以实现灾难恢复和高可用性需求。

5)         Cruise Control支持提供基于API的工具,以监视和协助Kafka集群和主题的重新平衡和扩展。

6)         Streams Messaging Manager用于监控和管理发布者、代理、使用者和主题。

1.4.3.      运营数据库

Cloudera运营数据库提供了实时的、始终可用的、可扩展的运营数据库,该数据库在统一的运营和仓储平台中为传统结构化数据和非结构化数据提供服务。运营数据库由Apache HBase和Apache Phoenix提供支持。

image.png

1.4.4.      准实时分析

准实时分析需要对变化中的数据提供快速分析能力,包括结合历史数据和实时流数据进行汇总分析、预测和明细查询。

准实时分析的典型场景需要同时支持顺序和随机读/写的应用场景,包括:

·         在线交互式BI分析/决策辅助

o 场景举例:  贷后风险实时监测,实时资产偏好视图,历史风险偏好趋势,市场监测

o 应用类型: 需要准实时的同步插入/修改,同时汇总分析和单条查询

·         时间序列数据

o 场景举例:  股市行情数据; 欺诈检测和预防; 风险监控;线上实时反欺诈

o 应用类型:需要实时捕获流数据,同时结合已有的T+1数据进行汇总、分析和计算

·         机器日志数据分析

o 场景举例: 台机监控、故障预警

o 应用类型:需要过滤大量流数据,同时结合已有的T+1数据进行汇总、分析和计算

在CDP平台上通过使用Kudu+Impala的架构来提供准实时数据分析,这里只使用一套系统,不再需要后台定时的批处理任务来同步数据,可以轻松应对数据延迟和数据修复工作,新数据可以立即用于分析和业务运营。

image.png

1.4.5.      多租户和虚拟专用集群

虚拟专用集群使用Cloudera共享数据体验(SDX)来简化内部部署和基于云的应用程序的部署,并使在不同集群中运行的工作负载能够安全灵活地共享数据。

借助虚拟专用集群和SDX框架,Cloudera Manager中提供了一种称为计算集群的新型集群。 Compute集群运行诸如Hive Execution Service、Spark或YARN之类的计算服务,但是您可以配置这些服务以访问托管在另一个称为Base集群的常规群集中的数据。使用此体系结构,您可以通过多种方式分离计算和存储资源,以灵活地最大化资源。

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享: