《CDP企业数据云平台从入门到实践》——Cloudera CDP 产品介绍 (4) https://developer.aliyun.com/article/1228592?groupCode=ClouderaCDP
四、 典型场景
1. 为什么选择 CDP?
许可证 renew+硬件更新的机会。
• HDP 2.6.x/CDH 5.x 覆盖了约 70%的客户群。
• CDH、HDP EoS。
• 运行这些软件的客户将需要升级到受支持的版本。
2. 阿里云 CDP 产品客户价值
1) 更快、更高效、更安全
2) 重大功能增强/性能改进
• 数据工程:Spark3 性能提升 2 倍;支持 Nvidia GPU 卡,性能再提升 3-7 倍。
• 数据仓库:Impala 性能提升 2 到 7 倍;新执行引擎 Hive on Tez,支持 ACID、物化视图,性能提升 5 倍以上。
• 运营数据库:支持 SQL 和 No SQL 多种模式,吞吐量性能提高 15-20%。
• 流处理:完善的集群管理,复制,流量控制。
3) 安全合规和售后支持
• 基于 Ranger 提供统一的细粒度访问控制,动态行过滤和列掩码。
• 基于 Atlas 提供完善的元数据、血缘和监管链,高级数据发现和业务词汇表。
• 持续修复已报的 CVE 安全漏洞。
• 专家支持服务,快速解决使用问题,用户专注业务。
4) 不升级的影响
• 旧平台功能/性能/安全受限,无法满足部分应用需求和国家/行业合规性需求。
• 没有售后支持,应用无法放心的广泛应用于生产,影响业务创新。
5) CDP7.1 VS CDH6.3
• 更高版本
CDP 的 HDFS,Hive,HBase,Spark,Kafka 和 Solr 等组件版本较新。
• 更多组件
CDP 新增组件包括 Zeppelin,Livy,Phoenix,SMM,Knox,ORC,Ranger 和 Atlas等等。
• 更长时间
EoS 时间比较:
CDH 6.3:2022 年 3 月。后续仅有维护版本。
CDP 7.1:2023 年 5 月。产品线持续更新。
• 安全合规
CDP 的 Apache Ranger 提供了新的安全功能(动态行过滤和列掩码)。同时借助Apache Atlas,CDP 改进了数据资产管理功能,帮助企业实现 PCI 和GDPR 标准。
• 更高扩展
Apache Hadoop Ozone 是一个分布式 KV 存储,旨在实现数十亿个规模的文件扩展,远远超过当前 Namenode 文件上限(300M)。同时,Ozone 能与 HDFS 共享数据节点实现无缝迁移。
• 更易管理
CM7.1 支持在 cgroup 中直接启用新配置。而在 C6 中必须重新启动集群才能更新cgroup 配置。另外,CDP 的 ZK 新版本修复了与 jackson-databind、Jetty、log4j相关的 17 个安全漏洞。
• 新 Hive3 体验
Hive on Tez 提供更好的 ETL 性能,同时支持 ACID,极大简化事务处理,兼容 ANSI SQL 2016 标准。另外,Data Analytics Studio 能够可视化展示 HiveSQL 对应的 DAG分解图。
• 新 Spark 体验
CDP 预装 Spark 2.4.5,同时支持并行安装 Spark3.0。可以体验 Spark SQL 自适应执行和动态分区裁剪等功能。
• 新的队列管理
CDP 的 YARN Queue Manager 使用 Capacity Scheduler,支持 GPU、Node Labels、GlobalScheduling,同时采取更加灵活的 Placement Policy。
• 多种部署方式:支持公有云/本地部署,混合云部署
6) CDP 公有云应用场景
现代数据库
运营数据库
准实时分析
流式处理和分析
升级现有集群
• 选项 A
步骤 1:将现有集群升级到 CDP PVC Base,从而基于现有数据创建 SDX 环境。
步骤 2:安装 CDP 私有云并使用“体验”构建新应用程序。
步骤 3:使用工作负载管理器将关键工作负载从 CDP 数据中心版集群智能迁移到CDP 私有云体验。
• 选项 B
步骤 1:在新硬件上安装 CDP 数据中心,并使用 Replication Manager 从现有集群中复制数据、元数据和策略以创建 SDX 环境。
步骤 2:安装 CDP 私有云并使用“体验”构建新应用程序。
步骤 3:使用工作负载管理器将关键工作负载从 CDH/HDP 集群智能迁移到 CDP 私有云体验。