《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2) https://developer.aliyun.com/article/1226345?groupCode=ClouderaCDP


5. Cloudera 搜索


Cloudera Search 是完全集成在 Cloudera 平台中的 Apache Solr,利用了 Cloudera Data Platform(CDP)中包含的灵活、可扩展且强大的存储系统和数据处理框架。这消除了跨基础设施移动大型数据集以执行业务任务的需要。它进一步支持简化的数据管道,其中搜索和文本匹配是更大工作流程的一部分。


Cloudera Search 提供对 Hadoop、HBase 或云存储中存储或摄取的数据的简单、自然的语言访问。最终用户和其他 Web 服务可以使用全文查询和分面钻取来探索文本、半结构化和结构化数据,并快速过滤和聚合这些数据以获得业务洞察力,而无需 SQL 或编程技能。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4) https://developer.aliyun.com/article/1226337?groupCode=ClouderaCDP


将 Cloudera Search 与 CDP 基础设施结合使用可提供:


• 简化的基础设施

• 更好的生产可见性和控制

• 更快地了解各种数据类型

• 更快地解决问题

• 为 SQL 以外的更多用户和用例简化交互和平台访问

• 用于在同一数据上运行其他类型工作负载的同一平台上搜索服务的可扩展性、灵活性和可靠性

• 跨所有流程的统一安全模型,可以访问您的数据

• 摄取和预处理选项的灵活性和规模


下表描述了 Cloudera 搜索功能。


image.png

image.png


二、 使用 APACHE HIVE METASTORE


1. HMS 表存储


当您运行 CREATE TABLE 语句或将表迁移到 Cloudera Data Platform 时,您需要了解 Hive metastore(HMS)如何存储 Hive 表。语句的成功或失败、生成的表类型和表位置取决于许多因素。


1) HMS 表转换


HMS 包括以下关于您创建的表的 Hive 元数据:

• 表定义

• 列名

• 数据类型

• 中央模式存储库中的评论


当您在CREATE TABLE语句中使用EXTERNAL关键字时,HMS会将表存储为外部表。当您省略 EXTERNAL 关键字并创建托管表或摄取托管表时,HMS 可能会将表转换为外部表,或者表创建可能会失败,具体取决于表属性。影响表转换的一个重要表属性是 ACID 或 Non-ACID 表类型:


非 ACID

表属性不包含任何设置为 true 的 ACID 相关属性。例如,该表不包含此类属性

transactional=true 或 insert_only=true。


ACID

表属性确实包含一个或多个设置为 true 的 ACID 属性。


完整的 ACID

表属性包含 transactional=true 但不包含 insert_only=true


仅插入的 ACID

表属性包含 insert_only=true。

以下矩阵显示了表类型以及是否支持位置属性。


image.png


HMS 检测与 HMS 交互的客户端类型,例如 Hive 或 Spark,并将客户端的能力与表要求进行比较。HMS 根据比较结果执行以下操作:


image.png


Spark 客户所需的能,出现以下类型的


image.png



目录
相关文章
|
5月前
|
存储 机器学习/深度学习 数据采集
一文讲透数据仓库、数据湖、数据海的区别
企业常因数据架构不清导致报表延迟、数据矛盾、利用困难。核心解法是构建数据仓库(高效分析)、数据湖(灵活存储原始数据)和数据海(全局集成)。三者各有适用场景,需根据业务需求选择,常共存互补,助力数据驱动决策。
一文讲透数据仓库、数据湖、数据海的区别
|
6月前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
7月前
|
存储 BI API
一文读懂数据中台和数据仓库的区别
本文深入解析了“数据中台”与“数据仓库”的区别,从定义、功能、架构设计、数据处理、应用场景等多个维度进行对比,帮助企业更清晰地理解二者的核心差异与适用场景。数据仓库重在存储与分析历史数据,服务于高层决策;数据中台则强调数据的实时处理与服务化输出,直接赋能一线业务。文章还结合企业规模、业务需求与技术能力,给出了选型建议,助力企业在数字化转型中做出更科学的选择。
1393 11
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
281 3
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
831 1
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
375 0
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章