CDP 平台简介

简介: EDC 建立在 Cloudera Data Platform(CDP) 之上,该产品结合了 Cloudera Enterprise Data Hub 和 Hortonworks Data Platform Enterprise 的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。这种统一的发行是一个可扩展且可自定义的平台,您可以在其中安全地运行多种类型的工作负载。

企业数据云概述

企业对大数据解决方案的要求:只要有必要,就可以在一个地方以原始的保真度来获取和合并任何数量或类型的数据,并尽可能快地向所有用户提供洞察力。


企业数据云公司 Cloudera 引入了企业数据云(EDC)的概念:数据驱动的企业需要能够对无处不在的数据应用多种分析规则;能够以流式的方式传输和处理来自边缘多个端点的实时数据,同时预测关键结果并在同一数据集上应用机器学习技术;能够充分利用公有云基础架构的敏捷性、灵活性以及日益庞大的数据引力;此外,能够在开放平台上完成所有这些工作,在数据存放和分析运行的所有位置都能应用数据安全和治理。这就是业界所说的企业数据云。


EDC 具有以下特点:

  • 混合云和多云支持:提供选择来管理、分析和试验任何公有云和私有数据中心中的数据,以实现最大的选择和灵活性。
  • 多功能分析:解决最苛刻的业务用例 – 跨共享数据大规模地应用实时流处理、数据仓库、数据科学和迭代机器学习。
  • 安全性和治理:通过通用的安全模型来控制任何云(公有云、私有云和混合云)上的数据,简化了各种企业数据的数据隐私和合规性。
  • 开放:促进开源社区的创新、提供开放存储和计算架构的选择性以及促进广泛的生态系统的信心和灵活性


企业数据云平台不但提供企业级的安全性和治理能力,还同时提供多种分析功能用于数据分析,具备在内部和外部部署相同功能的能力,支持主要的公有云和私有云环境、使得用户获得弹性的云体验,并不再存在数据孤岛和单一供应商锁定的威胁。

image.png

EDC 不但可以灵活地运行各种企业工作负载(例如:实时摄取和分析、数据工程、交互式 SQL、企业搜索、高级分析和机器学习),还满足企业的要求:与企业现有的系统进行集成,同时提供强大的安全性、数据治理、数据保护和管理能力。EDC 是企业数据管理的新兴中心。


CDP平台简介

EDC 建立在 Cloudera Data Platform(CDP) 之上,CDP 是 Cloudera 公司的最新产品,该新产品结合了 Cloudera Enterprise Data Hub 和 Hortonworks Data Platform Enterprise 的优点,并在技术堆栈中增加了新功能和对已有技术提供了增强功能。这种统一的发行是一个可扩展且可自定义的平台,您可以在其中安全地运行多种类型的工作负载。

6553CB1E-6F56-4d54-AB04-BA151C69DCCB.png

除了需要企业数据云外,企业还希望将这种强大的数据管理基础架构迁移或添加到云中,以提高运营效率、降低成本、提供计算和容量灵活性以及速度和敏捷性。


随着组织在云环境中采用基于 Hadoop 的大数据部署,他们还需要企业级的安全性和治理、多种分析功能、管理工具和技术支持-所有这些需求都是 CDP 平台的一部分,下图展示了 CDP 平台的功能地图。

image.png

CDP 支持各种混合解决方案,其中计算任务与数据存储分离,并且可以从远程集群访问数据。这种混合方法通过管理存储、表 Schema、身份验证、授权和治理,并为容器化应用程序提供了基础。


CDP 包括各种组件,例如 Apache HDFS、Apache Hive 3、Apache HBase 和 Apache Impala,以及许多其他用于特殊工作负载的组件。您可以选择这些服务的任意组合来创建满足您的业务需求和工作负载的集群。几个预配置的服务包也可用于常见的工作负载。


Cloudera Manager 概览

Cloudera Manager 是用于管理、配置和监控 CDP 集群和 Cloudera Runtime 服务的应用程序。


Cloudera Manager 服务器在CDP部署中的主机上运行,并使用在集群中每个主机上运行的 Cloudera Manager 代理来管理一个或多个集群。


Cloudera Manager 是用于管理集群的端到端应用程序。借助 Cloudera Manager,您可以轻松地部署和集中操作完整的 Cloudera Runtime 堆栈和其他托管服务。该应用程序可自动执行安装和升级过程,并为您提供主机和正在运行的服务的整个群集的实时视图。Cloudera Manager 管理控制台提供了一个中央控制台,您可以在其中对整个集群进行配

置更改,并结合了各种报告和诊断工具来帮助您优化性能和利用率。Cloudera Manager还管理安全性和加密功能。使用 Cloudera Manager 管理控制台,您可以启动和停止集群以及单个服务、配置和添加新服务、管理安全性以及升级集群。您还可以使用 Cloudera Manager API 以编程方式执行管理任务。


Cloudera Manager 的单个实例可以管理多个集群,包括较旧版本的 Cloudera Runtime 和 CDH。


Cloudera Runtime

Cloudera Runtime 是 CDP Private Cloud Base 中的核心开源软件发行版。Cloudera Runtime 包括大约50个开源项目,这些项目构成 CDP 中数据管理工具的核心分发。该库中记录了 Cloudera Runtime 组件。


工具

CDP 还包括以下工具来管理和保护您的部署:

  • Cloudera Manager 允许您使用 Cloudera Manager 管理控制台的 Web 应用程序或Cloudera Manager API 管理、监控和配置集群和服务。
  • Apache Atlas 提供了一组元数据管理和治理服务,使您能够管理 CDP 集群资产。
  • Apache Ranger 通过用户界面管理访问控制,以确保 CDP 集群中一致的策略管理。




点击链接参与阿里云CDP限时免费测试啦~

https://survey.aliyun.com/apps/zhiliao/owtTaIQU3


钉钉扫描下方二维码加入阿里云 Cloudera 企业数据云交流群一起参与讨论吧!

lADPJxDjvPGb9xjNA97NAu4_750_990.jpg

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
存储 消息中间件 监控
Pulsar 介绍与部署
Pulsar 介绍与部署
4581 0
Pulsar 介绍与部署
|
7月前
|
数据采集 安全 网络安全
动态HTTP代理与静态HTTP代理:优缺点详析
HTTP代理服务在网络安全、数据获取及访问控制中扮演重要角色,主要分为动态和静态两种形式。动态HTTP代理通过频繁更换IP地址提供高度匿名性和灵活性,适用于网络爬虫、社交媒体管理和网络安全等场景,但存在连接不稳定和安全性问题。静态HTTP代理则提供固定IP地址,确保长期稳定连接,适合远程办公、跨境电商和SEO优化,但易被封禁且灵活性差。用户应根据需求选择合适的代理类型,并确保合法合规使用。
124 1
|
8月前
|
存储 算法 C++
【c++丨STL】priority_queue(优先级队列)的使用与模拟实现
本文介绍了STL中的容器适配器`priority_queue`(优先级队列)。`priority_queue`根据严格的弱排序标准设计,确保其第一个元素始终是最大元素。它底层使用堆结构实现,支持大堆和小堆,默认为大堆。常用操作包括构造函数、`empty`、`size`、`top`、`push`、`pop`和`swap`等。我们还模拟实现了`priority_queue`,通过仿函数控制堆的类型,并调用封装容器的接口实现功能。最后,感谢大家的支持与关注。
391 1
|
10月前
|
搜索推荐 机器人 定位技术
SEO 搜索引擎优化核心名词全解析
本文详细解析了 SEO(搜索引擎优化)中的核心名词,包括关键词、页面标题、元描述、网站地图、反向链接、锚文本、内部链接、页面权重、域权重、搜索引擎机器人、索引、收录、白帽 SEO 和黑帽 SEO。掌握这些术语及其作用,有助于提升网站在搜索引擎中的可见性和排名,实现长期发展。
308 20
|
10月前
|
供应链 搜索推荐 API
1688APP原数据API接口的开发、应用与收益(一篇文章全明白)
1688作为全球知名的B2B电商平台,通过开放的原数据API接口,为开发者提供了丰富的数据资源,涵盖商品信息、交易数据、店铺信息、物流信息和用户信息等。本文将深入探讨1688 APP原数据API接口的开发、应用及其带来的商业收益,包括提升流量、优化库存管理、增强用户体验等方面。
479 6
|
11月前
|
人工智能 Cloud Native 数据管理
媒体声音|阿里云王远:一站式数据管理平台的智能化跃迁
在DTCC 2024大会上,阿里云数据库产品管理与技术架构部负责人王远与IT168 & ITPUB特约嘉宾薛晓刚就数据库与AI技术的融合、云原生数据库的新趋势及向量数据库的支撑能力等热点话题进行了深入探讨。王远认为,Data+AI不仅是一个概念,已进入实际落地阶段。在智能化时代,单一数据库引擎难以满足多元业务需求,需要构建统一的数据管理能力,以支持不同工作负载。阿里云通过“瑶池”数据库品牌,提供云原生、平台化、一体化和智能化的数据库解决方案,助力用户应对复杂的数据管理挑战。
429 11
|
机器学习/深度学习 人工智能 自然语言处理
20用于深度学习训练和研究的数据集
无论是图像识别,自然语言处理,医疗保健还是任何其他人工智能领域感兴趣,这些数据集都是非常重要的,所以本文将整理常用且有效的20个数据集。
998 1
|
弹性计算 固态存储 ice
阿里云ECS服务器2核16G、4核32G和8核64G不同配置租赁价格表
2024年阿里云服务器提供多种配置与实例规格,如2核16G、4核32G及8核64G等,用户可根据需求选择内存型r8i、通用算力型u1等不同架构。以2核16G为例,r8i每月334.19元起,u1则为286.2元起。公网带宽与系统盘亦有多档价位。实际价格与折扣请参照官网。
499 5
|
存储 SQL 分布式计算
impala入门(一篇就够了)
impala入门(一篇就够了)
2428 0
impala入门(一篇就够了)
|
SQL 关系型数据库 MySQL
Go语言中的ORM框架介绍
【2月更文挑战第13天】本文将介绍ORM(对象关系映射)框架在Go语言中的应用。ORM框架能够简化数据库操作,将数据库表映射为Go结构体,并提供了一系列方法来执行CRUD(创建、读取、更新、删除)操作。我们将探讨几个流行的Go语言ORM框架,包括GORM、SQLBoiler和Squirrel,并比较它们的特性和用法。