大家好,我是明哥!
1 CDP 介绍
熟悉大数据业界的小伙伴们都知道,Cloudera 在跟 HortonWorks 合并后,便推出了新一代大数据平台 CDP,并正在逐步停止对原有的大数据平台 CDH 和 HDP 的维护。
下图简要介绍了目前市面上主流CDH和HDP版本的关键时间点
- HDP2.x和CDH5.x对应的是hadoop2.x
- HDP3.x和CDH6.x对应的是hadoop3.x
- 目前官方已经停止了对HDP2.x和CDH5.X的技术支持
- 官方对HDP3.x和CDH6.x的技术支持也都会在最近半年停止
- 具体来讲,HDP3.x的最新版HDP3.1,会在2021/12月停止技术支持
- 具体来讲,CDH6.x的最新版CDH6.3,会在2022/3月停止技术支持
CDP 可以认为是将原来的 CDH/HDP 融合在了一起,具体融合方式如下图所示,关键点是:
- 淘汰了竞争的技术
- 融合了重叠的技术
- 保留了互补的技术
- 升级了共享的技术
- 并增加了某些新功能
2 CDP 的不同部署形态
CDP 对应不同场景,推出了两大部署形态:
- 对应公有云场景的 CDP public cloud, 以 PaaS 形式对外提供服务,目前已经对接了三大公有云厂商 aws, gcp, azure;
- 对应私有云场景和数据中心场景的 CDP private cloud, 包括 CDP private cloud base 和 CDP private cloud plus,其中前者对应的就是原来场景的 CDH 和 HDP,后者底层封装使用了 docker 和 k8s,经常被用来做计算集群;
- 以上两个版本底层对应的是同样的 cloudera runtime, 其实质就是大数据各个具体组件,如 hdfs/yarn/hive/spark 等等。
- 随着各行各业数字化转型的推进,当前企业的业务系统,上云是一大趋势,且上云的最终形态,是多个公有云和私有云的混合部署形态,即混合云。在次背景下,Cloudera 也整合并重磅推出了 CDP Hybrid Cloud:
3 CDP Hybrid Cloud 的架构
CDP Hybrid Cloud 顺应了企业数字化转型并最终使用混合云的大趋势,以统一的体验整合了公有云和私有云的资源,其最终架构如下图所示:
这里有几个要点解释下:
- 用户通过熟悉的 Cloudera Manager,使用熟悉的 parcel包,来安装和管理 CDP BASE CLUSETER, 也就是 CDP private cloud base, 就像原来安装和管理 CDH 一样;
- 用户通过熟悉的 Cloudera Manager,在需要的时候,使用 docker 镜像,在公有云上或私有云上,安装和管理一个或多个 ECS 或 OCP; ( ECS: Amazon Elastic Container Service; OCP: Red Hat OpenShift Container Platform, 两者都是基于 K8S/DOCKER的封装);
- CDP BASE CLUSETER,主要当做存储集群来使用,当不使用其计算能力时,甚至可以不安装 impala/hs2/spark等计算引擎;
- ECS 或 OCP,主要当做计算集群来使用,可以不安装也可以安装多个,当不使用其存储能力时,可以不安装 hdfs/ozone 等存储引擎;
- ECS 或 OCP,对应不同的使用场景,可以安装多个集群,比如对应数仓场景的 CDW(cloudera datawarehouse, 其底层主要是hs2,impala,hue),对应机器学习的CML (cloudera machile learning,其底层主要是 python/r/scala 的jupiter notebook),对应数据工程的 CDE(cloudera data engineering,其底层主要是 spark,airflow)
- 当然在复杂的场景下,CDP BASE CLUSETER 和 ECS/OCP,也可以是多对多的关系: