《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (2) https://developer.aliyun.com/article/1228531?groupCode=ClouderaCDP
二、 为什么选择 CDP
1. 什么是 CDP?
Cloudera Data Platform(CDP)是 Cloudera 公司的最新产品,该新产品结合了Cloudera Enterprise Data Hub 和 Hortonworks Data Platform Enterprise 的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。这种统一的发行是一个可扩展且可自定义的平台,您可以在其中安全地运行多种类型的工作负载。
企业希望将这种强大的数据管理基础架构迁移或添加到云中,以提高运营效率、降低成本、提供计算和容量灵活性以及速度和敏捷性。
随着组织在云环境中采用基于 Hadoop 的大数据部署,他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是 CDP 平台的一部分,下图展示了 CDP 平台的功能地图。
CDP 支持各种混合解决方案,其中计算任务与数据存储分离,并且可以从远程集群访问数据。这种混合方法通过管理存储、表 Schema、身份验证、授权和治理,并为容器化应用程序提供了基础。
CDP 包括各种组件,例如 Apache HDFS、Apache Hive 3、Apache HBase 和 Apache Impala,以及许多其他用于特殊工作负载的组件。您可以选择这些服务的任意组合来创建满足您的业务需求和工作负载的集群。几个预配置的服务包也可用于常见的工作负载。
2. 相对于 CDH/HDP,CDP 有什么改进
CDP 平台有 40 多个组件,是可以提供更多功能的企业级分析平台。
这个平台集合了 CDH 和 HDP 的精华来创建,把一些过时的技术淘汰掉,再融合新的技术,把双方差异性的技术保留下来,同时升级共享一些技术得到最新版本。
整个 CDP 平台主要有两块功能。
第一块是通过 Cloudera Manager 负责整个平台的运营和管理工作,上图中间这部分是 CDP 的主要功能,是 CDP 平台具有的功能和能力。最下面支持各种各样的存储,HDFS、Ozone、Kudu、云对象存储等。它还有数据移动功能,任务编排和用户接口的功能、有运营数据库、数据仓库的能力,搜索、安全和治理的能力,同时还有数据的加密和密钥管理的功能。Cloudera 还有的其他应用,比如 CDSW 或Cloudera Data Flow,也可以被 Cloudera manage 来管理和支持,来满足企业更广泛的应用和使用能力。
CDP 作为 CDH 和 HDP 两个产品融合后的产品,具有了两个产品的最佳功能,同时有增加了新功能。整体来看有下面这些改进。
• 高级数据工程
Spark3 性能提升 2 倍。
Hive Warehouse Connector 使数据工程更简单、更快捷。
• 现代数据仓库
与传统 MapReduce 相比,Hive on Tez 的有向无环图(DAG)和数据传输
原语提高了查询性能。
Impala 的最新改进使性能提高了 2 到 7 倍。
使用物化视图和查询缓存加快 Hive 查询。
• 可靠的运营数据库
支持 SQL 和 No SQL 的多模式,吞吐量性能提高 15-20%。
1) 企业级数据工程
CDP 提供更快、更容易的企业级数据工程支持。
• Spark 通过 Hive Warehouse Connector(HWC)来提供高性能的 SPARK
HIVE 互操作性
性能改进-用于 Hive ACID 表的 Spark Direct Reader。
Spark 和 Hive Acid v2 集成降低了复杂性,可以用于 Hive ACID 表的透明读取和大量访问。
简化应用。
• Spark 创新
在 CDP 平台上同时支持 Spark2.4.7 和 Spark3,使得用户可以根据实际需
求选择使用的 Spark 版本。
Spark 3 提供了性能改进,目前 Cloudera 也已经推出了 Spark 3.1 的 GA 版本。
Spark 2.4,启用自适应查询执行、动态分区修剪等优化。
Spark 2.4 改进-从上游 Spark 3 错误修复和关键性能优化(如 DPP)向后移植。
• 整合第三方生态
添加了 Livy JDBC/Thrift Server 支持,并提高了安全性和容错性。
• 加强治理
用于提供完整数据血缘的 Spark Atlas 连接器,支持 Spark 的字段级血缘。
2) 数据仓库
CDP 中提供的数据仓库功能简化了架构,同时提供更快的工作负载。
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (4) https://developer.aliyun.com/article/1228528?groupCode=ClouderaCDP