《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (9) https://developer.aliyun.com/article/1228522?groupCode=ClouderaCDP
4. 迁移升级
迁移升级方法是 CDP 的第二条路径。在第二套硬件上配置了一个新的未开发的 CDP私有云基础版集群。对于阿里云上的用户,可以直接采用该方案进行迁移到基于阿里云部署的 CDP 平台上。该过程旨在最大程度地减少单个工作负载的停机时间,同时在每个工作负载的基础上提供一种直接的回滚机制。迁移升级分为三个主要阶段。
首先,构建并配置新的 CDP 私有云基础版集群。其次,配置复制过程以提供数据、元数据以及随附的治理策略的定期且一致的快照。第三,将工作负载部署到新集群上,对其进行测试,并在验证后将其转变为生产状态。移动后,请在旧版集群上禁用它们。此更改意味着在迁移期间,您将临时使生产工作负载跨多个集群运行。
Cloudera 提供了辅助此过程的工具,包括 DistCP,用于数据复制的 Replication Manager(以前称为 BDR)以及用于 Hive 模式和迁移的 hms-mirror。Authzmigrator提供从 Sentry 到 Ranger 的策略转换路径。FS2CS 简化了从 YARN FairScheduler 到CapacityScheduler 的切换。在不需要转换的情况下,通过将策略和配置导出导入CDP 中的相应组件,可以直接重用。
1) 主要任务
集群中的主要内容可以分成这样四部分:用户积累的历史数据,数据对应的 Schema等数据状态相关的元数据,数据处理的批量和流处理程序,数据上层的外部应用。其中历史数据和 Schema 需要进行迁移并升级到新版本;但批量脚本和外部程序因为涉及到组件版本和 API 的调整,会涉及到代码改造的工作。
2) 优点
• 由于遗留版本和 CDP 版本可以并行运行而不会互相影响,因此更容易满足各个工作负载的服务级别协议。
• 设施齐备的单个租户可以一次移动一个工作负载,而无需在所有租户之间进行任何协调的活动。
• 回滚仅需要在工作负载级别或租户级别进行协调,而无需在整个集群级别进行协调。
• 支持从任何 HDP2/3 或 CDH5/ 6 版本直接迁移到 CDP。该方法还可以推广到非Cloudera 发行版。
3) 缺点
• 此方法需要一组重复的硬件,以与旧版环境一起实施未开发的 CDP 集群。这种新硬件可能会对资本支出和预算产生重大影响。
• 直到所有租户都迁移到新环境之前,额外的环境维护开销。
4) 何时使用
如果您有更严格的服务级别协议,而这些协议又无法使得您的工作负载延长进行长时间的停机时间,则最好采用这种机制。此外,升级过程通常是实施完整的硬件更新以利用更新的、功能更强大的设备的绝佳时机。在决定采用迁移升级方法的同时,诸如硬件的寿命及其刷新周期,数据中心重定位的需求等因素可以发挥重要作用。结合了硬件更新和数据中心重定位的客户已使用此机制来实施和缩短升级生命周期,并将对业务计划的多重影响降至最低。
5. 迁移升级指南
Cloudera 迁移指南用于提供将各种组件的数据从 CDH、HDP 和 CDP 私有云迁移到CDP 私有云的指南和说明。
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (11) https://developer.aliyun.com/article/1228518?groupCode=ClouderaCDP