从大数据平台CDP的架构看大数据的发展趋势 1-阿里云开发者社区

从大数据平台CDP的架构看大数据的发展趋势 1

2023-10-10 781

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 从大数据平台CDP的架构看大数据的发展趋势

大家好，我是明哥！

1 CDP 介绍

熟悉大数据业界的小伙伴们都知道，Cloudera 在跟 HortonWorks 合并后，便推出了新一代大数据平台 CDP，并正在逐步停止对原有的大数据平台 CDH 和 HDP 的维护。

下图简要介绍了目前市面上主流CDH和HDP版本的关键时间点

HDP2.x和CDH5.x对应的是hadoop2.x
HDP3.x和CDH6.x对应的是hadoop3.x
目前官方已经停止了对HDP2.x和CDH5.X的技术支持
官方对HDP3.x和CDH6.x的技术支持也都会在最近半年停止
具体来讲，HDP3.x的最新版HDP3.1，会在2021/12月停止技术支持
具体来讲，CDH6.x的最新版CDH6.3，会在2022/3月停止技术支持

CDP 可以认为是将原来的 CDH/HDP 融合在了一起，具体融合方式如下图所示，关键点是：

淘汰了竞争的技术
融合了重叠的技术
保留了互补的技术
升级了共享的技术
并增加了某些新功能

2 CDP 的不同部署形态

CDP 对应不同场景，推出了两大部署形态：

对应公有云场景的 CDP public cloud, 以 PaaS 形式对外提供服务，目前已经对接了三大公有云厂商 aws, gcp, azure；
对应私有云场景和数据中心场景的 CDP private cloud, 包括 CDP private cloud base 和 CDP private cloud plus，其中前者对应的就是原来场景的 CDH 和 HDP,后者底层封装使用了 docker 和 k8s，经常被用来做计算集群；
以上两个版本底层对应的是同样的 cloudera runtime, 其实质就是大数据各个具体组件，如 hdfs/yarn/hive/spark 等等。

随着各行各业数字化转型的推进，当前企业的业务系统，上云是一大趋势，且上云的最终形态，是多个公有云和私有云的混合部署形态，即混合云。在次背景下，Cloudera 也整合并重磅推出了 CDP Hybrid Cloud：

3 CDP Hybrid Cloud 的架构

CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势，以统一的体验整合了公有云和私有云的资源，其最终架构如下图所示：

这里有几个要点解释下：

用户通过熟悉的 Cloudera Manager，使用熟悉的 parcel包，来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样；
用户通过熟悉的 Cloudera Manager，在需要的时候，使用 docker 镜像，在公有云上或私有云上，安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform，两者都是基于 K8S/DOCKER的封装)；
CDP BASE CLUSETER，主要当做存储集群来使用，当不使用其计算能力时，甚至可以不安装 impala/hs2/spark等计算引擎；
ECS 或 OCP，主要当做计算集群来使用，可以不安装也可以安装多个，当不使用其存储能力时，可以不安装 hdfs/ozone 等存储引擎；
ECS 或 OCP，对应不同的使用场景，可以安装多个集群，比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook）,对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark，airflow）
当然在复杂的场景下，CDP BASE CLUSETER 和 ECS/OCP，也可以是多对多的关系：

从大数据平台CDP的架构看大数据的发展趋势 1

1 CDP 介绍

2 CDP 的不同部署形态

3 CDP Hybrid Cloud 的架构

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

从大数据平台CDP的架构看大数据的发展趋势 1

1 CDP 介绍

2 CDP 的不同部署形态

3 CDP Hybrid Cloud 的架构

热门文章

最新文章

相关课程

相关电子书