《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (3) https://developer.aliyun.com/article/1228530?groupCode=ClouderaCDP
3. 使用最新的 Impala 将性能提升 2 到 7 倍。
• 架构简化:通过更多的原生工具降低了第三方集成的成本和复杂性,并简化了应用程序
列掩码和行过滤:除了访问权限控制,进一步增强了数据保护的能力,支持
Hive/Impala
查询联邦:支持和 RDBMS 集成查询
数据可视化:BI 消费
工作负载管理:跨引擎自动化和集成
ACID v2 支持:更简单的管道
增强型数据仓库:时间序列 DW、探索 DW
• 更快的工作负载:更快的查询响应时间*,更高的并发性
高级缓存:查询、数据、元数据
物化视图:BI 加速
引擎改进:多线程、基于成本的优化、谓词下推
3) 运营数据库
CDP 中的运营数据库同时支持 SQL 和 No-SQL 两种模式,降低了运营成本并改善了连接性。
• 更低的运营成本
运营数据库的吞吐量性能提高 15-20%
DR 实例的扩展可用性
提高稳定性
• 通过支持 Phoenix,改进的运营数据库的连通性
更简单地连接到更多种类的数据源
JDBC/ODBC 现在支持越来越广泛的应用程序类型支持
横向扩展的 RDBMS
支持 ANSI SQL
二级索引,星型模式支持
视图
横向扩展复杂事务支持
完全符合 ACID
消除热点
可以与 HBase 应用程序共存
PB+规模
4) 从 CDH 到 CDP 的新功能
对于 CDH 的用户来讲,CDP 平台增加了很多新功能来提供更好的安全/治理和效率。
对于已有的 CDH 用户,他们会获得哪些能力?我们从整个大方向来讲,它在授权和策略管理上面做得更好,支持行过滤和动态列掩码,支持 SparkSQL 细粒度的访问控制,提供跨生态的授权和策略管理。
在数据治理上,它采用了 Atlas,可以更好地管理元数据、数据血缘和监管链,同时支持业务数据等等应用。在实时数据上,对 Kafka 做了很多增强,支持连接不同存储的 Kafka connect,支持 Kafka 集群的管理和数据复制,以及集群的运维。在运营数据库上支持了完整的 ACID SQL 标准,支持二级索引,支持星型 Schema 等等。
在数据仓库上,把 Hive 引擎用 Hive-on-Tez 替代来提供更好的 ETL 性能,同时支持ACID 事务支持 ANSI 2016 SQL 标准,也做了很多性能的优化。
在存储上,通过 Ozone 可以提供 HDFS 30 倍的扩展性,对 S3 原生远程支持,同时可以和 Kafka、Nifi 集成。
在安全上,提供了基于 Knox 的网关 SSO,同时支持密钥管理等等。
5) 从 HDP 到 CDP 的新功能
对于 HDP 平台的用户来讲,CDP 平台在管理/安全/数据仓库/存储等方面都提供了很多新功能。
对于 HDP 用户来说,也获取了大量的新功能。包括管理支持了计算和存储分离的体系架构,支持自动传输加密以及针对管理员的细粒度 RBAC。
• 搜索上,提供了非结构化数据的搜索,比如文本图像等等。
• 数据仓库上,引入了 Impala 来提供交互式 BI 查询的使用场景。
• 编辑控制器上,通过内置 SQL 编辑器来自动完成智能查询使用。
• 存储上,引入了 Kudu 和 Ozone,Kudu 可以支持快速变化的数据的快速更新,以及更好的交互式查询。
• 加密上,引入了自动传输加密以及 Ranger KMS 等能力。
6) 合规安全
Cloudera 提供的安全解决方案是业界最完整最成熟的,它主要由 4 部分组成。第一块是用户的访问边界,通过认证、网络隔离、用户组映射等技术来决定用户是否能够访问平台,进到集群访问之后的用户可以根据他拥有的权限去访问数据和应用,这主要是涉及到权限和授权相关的技术。当然,企业里面的数据要有可视性和可见性,需要知道数据从哪里来到哪里去,需要知道谁访问了什么,这就是审计和血缘相关的概念。还有一块就是数据的保护,防止不该访问的人访问,这里对应的是数据加密、数据标签、数据掩码等技术概念。
通过这样 4 个模块,Cloudera 提供了业界最完整最成熟的安全解决方案,使得企业可以更合规地去使用数据。
7) 改进总结
前面简单说了一下 CDP 平台相对于 CDH/HDP 平台增加的功能,CDP 平台更多的价值,可以用这一张图表来表示。
它提供了更高的分析性能,相对于以前的 CDH/HDP 平台产品,它通过集成最新版的 Impala、Hive 和 Spark,可以带给用户两倍的分析性能提升。同时通过 Cloudera Manager 的集群管理,来提供增强的集群管理和资源调度,减少了 20%的资源使用。
通过在 CDP 平台引入 Ozone 对象存储和 HDFS 纠删码,可以提供 5 倍的存储密度,使得用户的存储更具有成本效益。对于安全合规比较敏感的用户,CDP 把已知的 CVE都解决了。在最新的 CDP7.1.7 里,有个用户前一段时间刚进行了安全漏洞的扫描,没有在 CDP 平台上发现任何 CVE。发现的 CVE 基本上都是在上下游上面,该产品更符合用户对安全合规的诉求。
最后一点是数据的安全治理,在 CDP 中通过引入新的 SDX 控制,包括默认拒绝、最低权限,策略标签、可扩展审计、一致执行等等,使得用户减少 50%的工作量,来缓解监管合规性,大幅度降低任务、重载。
《CDP企业数据云平台从入门到实践》——CDP/HDP 何去何从 (3) https://developer.aliyun.com/article/1228530?groupCode=ClouderaCDP