《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (6) https://developer.aliyun.com/article/1228526?groupCode=ClouderaCDP
3. 多租户和虚拟专用集群
虚拟专用集群使用 Cloudera 共享数据体验(SDX)来简化内部部署和基于云的应用程序的部署,并使在不同集群中运行的工作负载能够安全灵活地共享数据。
虚拟专用集群的体系结构为部署工作负载和在应用程序之间共享数据提供了许多优势,包括共享目录、统一安全性、一致的治理和数据生命周期管理。
在传统的集群部署中,常规集群包含存储节点、计算节点以及其他服务,例如并置在单个集群中的元数据服务和安全服务。这种传统的体系结构具有许多优势,例如Impala 和 YARN 等计算服务可以访问并置的数据源(例如 HDFS 或 Hive)。
借助虚拟专用集群和 SDX 框架,Cloudera Manager 中提供了一种称为计算集群的新型集群。Compute 集群运行诸如 Hive Execution Service、Spark 或 YARN 之类的计算服务,但是您可以配置这些服务以访问托管在另一个称为 Base 集群的常规集群中的数据。使用此体系结构,您可以通过多种方式分离计算和存储资源,以灵活地最大化利用资源。
最常规的集群模式为传统模式,这是所有的计算和存储都在一个集群中,虽然可以使用大数据平台的资源管理来设置多租户和资源隔离,但无法实现真正的多租户。
当传统模式中有多个业务部门进行不同的工作负载时,就存在无法满足用户 SLA 的情况,可以在传统模式的基础上转换成混合模式,这时最下面还是传统集群,SDX来提供外部集群访问数据的上下文,上面的集群 1 和集群 2 都是只有计算服务的集群,他们根据数据上下文访问基础集群的数据,这时可以把一些工作负载放到计算集群中,而把部分工作负载保存在基础集群中,实现资源隔离效果更好的多租户。
对于某些用户,可能在最开始规划时就是完全的计算和存储隔离,这时就是分离的模式,最下面的集群存储所有的数据并通过 SDX 提供外部集群访问数据的数据上下文,上面的计算集群只有计算引擎来进行工作负载计算。
4. 运营数据库
Cloudera 运营数据库提供了实时的、始终可用的、可扩展的运营数据库,该数据库在统一的运营和仓储平台中为传统结构化数据和非结构化数据提供服务。运营数据库由 Apache HBase 和 Apache Phoenix 提供支持。
在运营数据库中,您可以将 Apache HBase 用作具有 HDFS 和/或 S3 提供存储基础结构的数据存储。您可以选择使用原生的 Apache HBase API 之一开发应用程序,也可以使用 Apache Phoenix 进行数据访问。Apache Phoenix 是一个 SQL 层,提供了编程的 ANSI SQL 接口。它可以在 Apache HBase 之上运行,并且可以使用标准 SQL 查询和 Apache Phoenix 命令来处理数据。您可以在公有云或本地中使用Cloudera 运营数据库。
运营数据库具有以下组件:
• Apache Phoenix 提供了一个在 Apache HBase 之上运行的 SQL 接口。
• Apache HBase 为键值存储提供了巨大的可扩展性,因此您可以在一个平台上存储无限量的数据,并满足不断增长的数据服务需求。
• Apache ZooKeeper 提供了分布式配置服务,同步服务和命名注册表。
• Apache Knox Gateway 提供外围安全性,以便企业可以放心地将访问权限扩展到新用户。
• Apache HDFS 用于存放 Apache HBase WAL。
• Hue 提供了一个基于 Web 的编辑器来创建和浏览 Apache HBase 表。
• Cloudera 共享数据体验(SDX)用于安全和治理功能。安全和治理策略设置一次,并应用于所有数据和工作负载。
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (8) https://developer.aliyun.com/article/1228523?groupCode=ClouderaCDP