Cloudera CDP PvC Base的新功能

简介: 如果您是CDH或HDP用户,则除了从CDH和HDP版本转移到CDP的功能之外,还可以查看CDP PvC Base中可用的新功能。

如果您是CDHHDP用户,则除了从CDHHDP版本转移到CDP的功能之外,还可以查看CDP私有云基础版中可用的新功能。

1.CDHCDP的新功能

1.1.Ranger2.0

·     动态行过滤和列屏蔽

·     基于属性的访问控制和SparkSQL细粒度访问控制

·     SentryRanger迁移工具

·     新的RMS提供HDFS ACL同步

1.2.Atlas2.0

·     通过提供实体模型扩展来支持业务元数据

·     批量导入业务元数据属性关联和词汇表术语

·     增强的基本搜索和过滤搜索

·     多租户支持并通过增强的UI简化了管理

·     数据血缘和监管链

·     先进的数据发现和业务词汇表

·     NavigatorAtlas的迁移

·     改进的性能和可伸缩性

·     OzoneApache Atlas集成

1.3.Hive3

·     Hive-on-Tez提供更好的ETL性能

·     支持原子性、一致性、隔离性和持久性(ACID)事务

·     全面的ANSI 2016 SQL覆盖

·     支持重大性能改进

·     查询结果缓存

·     代理键

·     物化视图

·     预定查询,使用SQL自动重建物化视图

·     自动翻译Spark-Hive读取,无需HWC会话

·     Hive Warehouse Connector Spark直接读取

·     Spark授权外部文件写入

·     改进的CBO和矢量化覆盖率

1.4.Ozone

·     HDFS10倍可扩展性

·     支持十亿个对象和S3原生支持

·     支持密集数据节点

·     快速重启,易于维护

1.5.HBase

·     HBase-Spark连接器

·     重新设计中等大小的对象(MOB),以实现更好的压缩和性能

1.6.Hue

·     使用Knox的基于网关的SSO

·     支持Ranger KMS-Key Trustee集成

1.7.Kudu

·     使用Ranger进行细粒度的授权

·     支持Knox

·     通过滚动重启和自动重新平衡来增强操作

·     大量改进可用性

·     添加了新的数据类型,如DATEVARCHAR和对HybridClock时间戳的支持

1.8.Yarn

·     新的Yarn队列管理器

·     放置规则使您无需指定队列名称即可提交作业

·     Capacity Scheduler利用延迟调度来满足任务位置约束

·     抢占允许优先级较高的应用程序抢占优先级较低的应用程序

·     不同层次结构下的相同队列名称

·     在队列之间移动应用程序

·     Yarn绝对模式支持

这是CDH堆栈中组件的通用服务级别体系结构。“ Cloudera Applications”“ Operations and Management” “ Encryption”框中的组件在CDH Cluster Services周界中定义的群集包络之外运行。

标有红色“ X”的组件将被弃用并删除,或者用CDP中的备用组件替换。CDP群集体系结构幻灯片中记录了这些更改。

Graphical user interface, application

Description automatically generated

1.9.服务变更

CDHCDP的服务更改为:

·      Flume Cloudera Data Flow

·      Navigator Ranger/Atlas

·      Sentry Ranger

·      KeytrusteeKMSRangerKMS

·      HSM KMSKey HSM

·      Hive-on-Spark/MRHive-on-Tez

·      YARN FairshareYARN Capacity

·      Spark 1.6Spark 2.4

·      NavOptWorkloadXM

·      PigHive or Spark

Graphical user interface, application

Description automatically generated

2.HDPCDP的新功能

2.1.ClouderaManager

·     虚拟私有集群

·     自动传输加密设置

·     管理员的基于角色的细粒度访问控制(RBAC

·     简化的维护工作流程

2.2.Solr8.4

·     在非结构化数据(文本,pdf.jpg等)上基于相关性的文本搜索

2.3.Impala

·     更适合Data Mart迁移用例(交互式,BI样式查询)

·     能够查询大型集群中的大量数据(大数据

·     集群环境中的分布式查询,方便扩展

·     Kudu集成以获取快速数据,与Ranger集成以获取授权策略

·     快速BI查询支持使用单个系统进行大数据处理和分析,因此客户避免了昂贵的建模和ETL将分析添加到数据湖中。

2.4.Hue

·     内置SQL编辑器,可自动完成智能查询

·     共享查询,图表结果并下载任何数据库

·     轻松搜索,浏览和导入数据集或作业

2.5.Kudu

·     更好的提取和查询性能,可快速更改/更新数据。通过KuduImpala更新支持报告

·     带有Kudu + Spark的实时和流式应用程序

·     时间序列分析,事件分析和实时数据仓库以最智能的自动完成功能提供最佳的查询体验

2.6.Yarn

·     过渡到Capacity Scheduler的工具

·     新的Yarn队列管理器

·     Capacity Scheduler利用延迟调度来满足任务位置约束

·     抢占允许优先级较高的应用程序抢占优先级较低的应用程序

·     不同层次结构下的相同队列名称

·     在队列之间移动应用程序

·     Yarn的绝对模式支持

2.7.加密

·     自动TLS功能可自动执行启用TLS加密所需的所有步骤

·     Ranger KMSKey Trustee Server集成以提供附加的密钥提供程序存储

·     使用NavEncrypt进行静态加密

原文链接:https://docs.cloudera.com/cdp-private-cloud/latest/upgrade/topics/cdpdc_cdp_pvcbase_new_features.html

目录
相关文章
|
8月前
|
人工智能 数据可视化 算法
企业想做数智化,数据仓库架构你得先搞懂!
在数智化浪潮下,数据驱动已成为企业竞争力的核心。然而,许多企业在转型过程中忽视了数据仓库这一关键基础。本文深入解析数据仓库的重要性,厘清其与数据库的区别,详解ODS、DWD、DWS、ADS分层逻辑,并提供从0到1搭建数据仓库的五步实战方法,助力企业夯实数智化底座,实现数据治理与业务协同的真正落地。
企业想做数智化,数据仓库架构你得先搞懂!
|
10月前
|
存储 监控 算法
120万次调用数据揭示:价格波动与转化率的黄金关联区间
本文详解如何利用淘宝电商API实现产品价格监控,涵盖技术原理、实战操作、智能系统构建与风险控制,助力商家提升市场响应速度与竞争力。
|
11月前
|
SQL 人工智能 数据可视化
StarRocks MCP Server 开源发布:为 AI 应用提供强大分析中枢
StarRocks MCP Server 提供通用接口,使大模型如 Claude、OpenAI 等能标准化访问 StarRocks 数据库。开发者无需开发专属插件或复杂接口,模型可直接执行 SQL 查询并探索数据库内容。其基于 MCP(Model Context Protocol)协议,包含工具、资源和提示词三类核心能力,支持实时数据分析、自动化报表生成及复杂查询优化等场景,极大简化数据问答与智能分析应用构建。项目地址:https://github.com/StarRocks/mcp-server-starrocks。
|
机器学习/深度学习 人工智能 自然语言处理
以史为鉴,未雨绸缪:身处“大模型掀起的AI浪潮中”的感悟和思考
本文旨在帮助读者更深入地理解大模型和AI技术,重点介绍关键技术革新的背景与影响,特别是本次大模型时代和新一轮AI浪潮的推动因素与发展历程。
|
存储 监控 druid
Druid、ClickHouse、Doris、StarRocks 的区别与分析
本文对比了 Druid、ClickHouse、Doris 和 StarRocks 四款大数据分析引擎。它们均为 OLAP 引擎,采用列式存储和分布式架构,适用于海量数据分析。Druid 擅长实时分析与高并发查询;ClickHouse 以超高性能著称,适合复杂查询;Doris 提供易用的 SQL 接口,性能均衡;StarRocks 则以其极速查询和实时更新能力脱颖而出。各引擎在数据模型、查询性能、数据更新和存储方面存在差异,适用于不同的业务场景。选择时需根据具体需求综合考虑。
7323 20
|
存储 大数据 Apache
大数据治理系统框架Apache Atlas实践
大数据元数据和数据管理框架 Apache Atlas实践 今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容: •Apache Atlas简介 •Apache Atlas架构 ...
10417 0
|
存储 分布式计算 OLAP
Apache Paimon统一大数据湖存储底座
Apache Paimon,始于Flink Table Store,发展为独立的Apache顶级项目,专注流式数据湖存储。它提供统一存储底座,支持流、批、OLAP,优化了CDC入湖、流式链路构建和极速OLAP查询。Paimon社区快速增长,集成Flink、Spark等计算引擎,阿里巴巴在内部广泛应用,旨在打造统一湖存储,打通Serverless Flink、MaxCompute等,欢迎大家扫码参与体验阿里云上的 Flink+Paimon 的流批一体服务。
21175 8
Apache Paimon统一大数据湖存储底座
|
分布式计算 资源调度 Hadoop
Hadoop YARN资源管理-公平调度器(Fackbook的Fair Scheduler)
详细介绍了Hadoop YARN资源管理中的公平调度器(Fair Scheduler),包括其概述、配置、队列结构、以及如何将作业提交到指定队列,展示了公平调度器如何通过分配文件(fair-scheduler.xml)来控制资源分配,并提供了配置示例和如何通过命令行提交作业到特定队列的方法。
1124 0
Hadoop YARN资源管理-公平调度器(Fackbook的Fair Scheduler)
|
前端开发
纯css爱心代码-最近超级火的打火机与公主裙中的爱心代码(简易版)
最近打火机与公主裙中的爱心代码超级火,看着特别心动,让俺用css来写个简易版!!!
556 1
|
运维 监控 Linux
【专栏】Docker命令`docker ps`的使用,包括列出运行中的容器、筛选特定容器、组合使用与其他命令配合以及在故障排查中的应用
【4月更文挑战第28天】本文介绍了Docker命令`docker ps`的使用,包括列出运行中的容器、筛选特定容器、组合使用与其他命令配合以及在故障排查中的应用。通过基础和高级用法示例,如列出所有容器、搜索特定镜像、监控资源使用等,帮助读者理解和提升容器管理效率。对于Linux运维工程师,掌握`docker ps`是必备技能。
2261 0

热门文章

最新文章

下一篇
开通oss服务