《CDP企业数据云平台从入门到实践》——CDP之数据仓库(1)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(1)


CDP 之数据仓库


Cloudera Data Platform 的数据仓库功能主要有 Apache Impala、Apache Hive 和Hue进行支持。使用这些组件熟悉的 SQL 接口,您可以访问您的数据。


一、 数据仓库概览


1. Hive Metastore 概述


Hive metastore(HMS)是一种服务,用于在后端 RDBMS(例如 MySQL 或PostgreSQL)中存储与 Apache Hive 和其他服务相关的元数据。Impala、Spark、Hive 和其他服务共享 Metastore。与 HMS 的连接包括 HiveServer、Ranger 和代表 HDFS 的NameNode。


Beeline、Hue、JDBC 和 Impala shell 客户端通过 thrift 或 JDBC 向 HiveServer 发出请求。HiveServer 实例向 HMS 读取/写入数据。默认情况下,冗余 HMS 以主动/主动模式运行。物理数据驻留在后端 RDBMS 中,其中一个用于 HMS。所有 HMS 实例都使用相同的后端数据库。一个单独的 RDBMS 支持安全服务,例如 Ranger。在任何给定时间,所有连接都路由到单个 RDBMS 服务。HMS 通过 thrift 与 NameNode对话,并充当 HDFS 的客户端。



image.png

HMS 直接连接到 Ranger 和 NameNode(HDFS),HiveServer 也是如此,但为简单起见,图中未显示。后端的一个或多个 HMS 实例可以与其他服务通信,例如Ranger。


2. Apache Hive 概览


Apache Hive 3.x 的主要更改改进了 Apache Hive 2.x 事务和安全性。了解这些版本之间的主要差异对于 SQL 用户(包括使用 Apache Spark 和 Apache Impala 的用户)来说至关重要。


Hive 是一个数据仓库系统,用于汇总、查询和分析庞大的不同数据集。


1) ACID 事务处理


Hive 3 表符合 ACID(原子性、一致性、隔离性和持久性)。Hive 3 写入和读取操作提高了事务表的性能。原子操作包括简单的写入和插入、写入多个分区以及在单个SELECT 语句中进行多次插入。读取操作不受操作期间发生的更改的影响。您可以插入或删除数据,并且它在整个软件和硬件崩溃期间保持一致。Hive 表的创建和维护得到简化,因为不再需要存储表。


2) 物化视图


因为多个查询经常需要相同的中间汇总表或连接表,所以您可以通过预先计算中间表并将其缓存到视图中来避免代价高昂的重复查询部分共享。


3) 查询结果缓存


Hive 过滤并缓存相似或相同的查询。Hive 不会重新计算未更改的数据。当成百上千的 BI 工具和 Web 服务用户查询 Hive 时,缓存重复查询可以大大减少负载。


4) 预定查询


使用 SQL 语句,您可以安排 Hive 查询定期运行、监控查询进度、暂时忽略查询计划并限制并行运行的数量。例如,您可以使用计划查询来启动压缩并定期重建物化视图。


5) 安全改进


Apache Ranger 默认保护 Hive 数据。为了满足并发改进、ACID 支持、呈现安全性和其他功能的需求,Hive 严格控制文件系统或对象存储和内存资源上的仓库位置。借助Apache Ranger 和 Apache Hive ACID 支持,您的组织将准备好支持和实施GDPR(通用数据保护条例)。


6) 连接池


Hive 支持 HakariCP JDBC 连接池。


7) 不支持的功能


CDP 不支持 HDP 和 CDH 平台中可用的以下功能:

• CREATE TABLE 指定托管表位置

不要使用 LOCATION 子句创建托管表。Hive 将仓库中的默认位置分配给托管表。

• 创建索引

Hive 在主表中的 ORC 或 Parquet 中自动构建和存储索引,而不是在不同的表中自动存储。设置 hive.optimize.index.filter 为启用(不推荐——改用物化视图)。在升级期间,现有索引将在 Parquet 或 ORC 中保留并迁移到 CDP。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2) https://developer.aliyun.com/article/1226345?groupCode=ClouderaCDP

目录
相关文章
|
5月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
6月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
7月前
|
存储 BI API
一文读懂数据中台和数据仓库的区别
本文深入解析了“数据中台”与“数据仓库”的区别,从定义、功能、架构设计、数据处理、应用场景等多个维度进行对比,帮助企业更清晰地理解二者的核心差异与适用场景。数据仓库重在存储与分析历史数据,服务于高层决策;数据中台则强调数据的实时处理与服务化输出,直接赋能一线业务。文章还结合企业规模、业务需求与技术能力,给出了选型建议,助力企业在数字化转型中做出更科学的选择。
1393 11
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
280 3
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
831 1
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
375 0
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章