一文看懂 Cloudera 对 CDH/HDP/CDP 的产品支持策略

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 一文看懂 Cloudera 对 CDH/HDP/CDP 的产品支持策略

一文看懂 Cloudera 对 CDH/HDP/CDP 的产品支持策略

前言

大家好,我是明哥。

熟悉大数据业界的小伙伴们都知道,Cloudera 在跟HortonWorks 合并后,便推出了新一代大数据平台 CDP,并正在逐步停止原有的大数据平台 CDH 和 HDP。

但具体到何时会彻底停止对 CDH 和 HDP 的维护,CDH/HDP 停止维护后现有用户该如何应对,以及 CDP 跟 CDH/HDP 的异同,或多或少都有些模式。

笔者希望通过本文,能彻底回答清楚小伙伴们的上述问题。以下是正文。

CDH/HDP 各版本的关键时间点

  1. 下图简要介绍了CDH和HDP侧重的技术领域:
  • 可以看到CDH和HDP都重点涵盖了数据工程和数据仓库场景
  • 同时CDH对AI,ML和数据科学场景有侧重
  • 而HDP对IoT数据摄取和流场景有侧重

image.png


  1. 下图简要介绍了目前市面上主流CDH和HDP版本的关键时间点
  • HDP2.x和CDH5.x对应的是hadoop2.x
  • HDP3.x和CDH6.x对应的是hadoop3.x
  • 目前官方已经停止了对HDP2.x和CDH5.X的技术支持
  • 官方对HDP3.x和CDH6.x的技术支持也都会在最近半年停止
  • 具体来讲,HDP3.x的最新版HDP3.1会在2021/12月停止技术支持
  • 具体来讲,CDH6.x的最新版CDH6.3会在2022/3月停止技术支持

image.png


CDP 介绍

  1. CDP 可以认为是将原来的 CDH/HDP 融合在了一起,具体融合方式如下图所示,关键点是:
  • 淘汰了竞争的技术
  • 融合了重叠的技术
  • 保留了互补的技术
  • 升级了共享的技术
  • 并增加了某些新功能


image.png

image.png

2. CDP 对应不同场景,推出了三大版本:

  • 对应公有云场景的 CDP public cloud,目前三大公有云厂商 aws, gcp, azure都已经提供了支持;
  • 对应私有云场景的 CDP private cloud plus,其计算集群使用了 docker 和 k8s 相关技术;
  • 对应数据中心场景的 CDP private cloud base, 其实对应的就是原来场景的 CDH 和 HDP;
  • 三大版本底层对应的是同样的 cloudera runtime,其实质就是大数据各个具体组件,如 hdfs/hive/spark等等。

image.png

image.png

Cloudera 的新许可证政策

Cloudera 的新许可证政策如下图所示,其关键点是:

  • Cloudera 所有产品都将开源 (至少承诺的是如此,包括原来CDH中不开源的cloudera manager等也将开源),其开源模型类似 Red Hat开源模型
  • Cloudera 所有产品的二进制文件和源代码,都需要订阅,(即不再提供社区版,只提供企业版,都需要付费,不再有免费的午餐!)
  • 自2019年11月以来,访问产品的二进制文件需要订阅和 paywall credentials (即没有paywall credentials 的话,将不再能从 cloudera 官网下载 parcel/rpm 包)
  • 2021年1月后,扩展的Paywall将包括平台的早期版本,包括所有版本的CDH/HDP/HDF等 (即目前所有版本的CDH/HDP/HDF/CDP,从官网下载 parcel/rpm 包,都需要有 paywall credentials)

image.png

image.png

使用遗留CDH/HDP系统的小伙伴们该何去何从

概括起来,使用遗留CDH/HDP系统的小伙伴们,有以下选择:

  1. 继续使用原有版本的CDH/HDP:在指定日期之后,Cloudera官方不再对原有版本的CDH/HDP提供技术支持,这仅仅意味着Cloudera官方不会再对原有版本提供新特性增强,也不再对原有版本提供BUG修复,但客户原有的大数据平台仍然是能够正常提供服务的 (这点不同于星环的TDH,TDH在许可证到期之后,整个集群中的服务就不能再重启,不能在正常提供服务了);
  2. 考虑市面上其他供应商的大数据平台,如星环的TDH,或基于开源apache版本自行封装。不过需要注意,星环的TDH是闭源的,其一些参数跟开源的并不兼容,有 vendor lock in的风险;
  3. 按照Cloudera的建议,在合适的时机,升级到 CDP平台。

如何从 CDH/HDP 迁移到CDP?

Cloudera 提供了一系列工具帮助大家尽量平滑地从CDH/HDP升级到CDP。

  1. Cloudera官方建议的升级方式有四种方式:
  • 原地升级
  • 拷贝升级/迁移升级
  • 滚动式拷贝升级/迁移升级
  • 迁移到公有云

image.png


  1. 不考虑迁移到共有云的话,大家可以主要考量两种迁移方式,即原地升级和拷贝升级/迁移升级,其优缺点如下图所示:

image.png


各种迁移方式的详细对比,和操作手册,Cloudera官网有消息描述,笔者在这里就不再赘述了。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
Web App开发 SQL 资源调度
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
|
Hadoop
使用ambari快速部署Hadoop集群
Ambari 自身也是一个分布式架构的软件,主要由两部分组成:Ambari Server 和 Ambari Agent。我们可以通过 Ambari Server 通知 Ambari Agent 安装对应的软件;甚至连Ambari Agent我们都可以在Web界面上来进行安装和部署。
3738 0
使用ambari快速部署Hadoop集群
|
11月前
|
存储 监控 druid
Druid、ClickHouse、Doris、StarRocks 的区别与分析
本文对比了 Druid、ClickHouse、Doris 和 StarRocks 四款大数据分析引擎。它们均为 OLAP 引擎,采用列式存储和分布式架构,适用于海量数据分析。Druid 擅长实时分析与高并发查询;ClickHouse 以超高性能著称,适合复杂查询;Doris 提供易用的 SQL 接口,性能均衡;StarRocks 则以其极速查询和实时更新能力脱颖而出。各引擎在数据模型、查询性能、数据更新和存储方面存在差异,适用于不同的业务场景。选择时需根据具体需求综合考虑。
5156 20
|
存储 SQL 分布式计算
impala入门(一篇就够了)
impala入门(一篇就够了)
2517 0
impala入门(一篇就够了)
|
机器学习/深度学习 DataWorks 安全
CDP是什么?
CDP是什么?
1027 0
|
存储 SQL 消息中间件
【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从
Hadoop社区版CDH/HDP已经不再更新,也将终止服务。后续的平台路线图怎么规划?Cloudera CDP整合了CDH和HDP,有哪些性能提升和功能增强?如何平滑的进行迁移?本文结合CDH/HDP平台现状,详细介绍了CDP以及如何到达CDP。
【阿里云 CDP 公开课】 第二讲:CDH/HDP 何去何从
|
资源调度 分布式计算 Kubernetes
Flink最全的集群部署攻略(推荐yarn实现企业级部署)
🍅程序员小王的博客:程序员小王的博客 🍅 欢迎点赞 👍 收藏 ⭐留言 📝 🍅 如有编辑错误联系作者,如果有比较好的文章欢迎分享给我,我会取其精华去其糟粕
11930 3
Flink最全的集群部署攻略(推荐yarn实现企业级部署)
|
存储 大数据 OLAP
一文快速搞懂Kudu到底是什么
一文快速搞懂Kudu到底是什么
2936 0
|
分布式计算 运维 大数据
盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役!
盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役!