《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2) https://developer.aliyun.com/article/1226345?groupCode=ClouderaCDP


5. Cloudera 搜索


Cloudera Search 是完全集成在 Cloudera 平台中的 Apache Solr,利用了 Cloudera Data Platform(CDP)中包含的灵活、可扩展且强大的存储系统和数据处理框架。这消除了跨基础设施移动大型数据集以执行业务任务的需要。它进一步支持简化的数据管道,其中搜索和文本匹配是更大工作流程的一部分。


Cloudera Search 提供对 Hadoop、HBase 或云存储中存储或摄取的数据的简单、自然的语言访问。最终用户和其他 Web 服务可以使用全文查询和分面钻取来探索文本、半结构化和结构化数据,并快速过滤和聚合这些数据以获得业务洞察力,而无需 SQL 或编程技能。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4) https://developer.aliyun.com/article/1226337?groupCode=ClouderaCDP


将 Cloudera Search 与 CDP 基础设施结合使用可提供:


• 简化的基础设施

• 更好的生产可见性和控制

• 更快地了解各种数据类型

• 更快地解决问题

• 为 SQL 以外的更多用户和用例简化交互和平台访问

• 用于在同一数据上运行其他类型工作负载的同一平台上搜索服务的可扩展性、灵活性和可靠性

• 跨所有流程的统一安全模型,可以访问您的数据

• 摄取和预处理选项的灵活性和规模


下表描述了 Cloudera 搜索功能。


image.png

image.png


二、 使用 APACHE HIVE METASTORE


1. HMS 表存储


当您运行 CREATE TABLE 语句或将表迁移到 Cloudera Data Platform 时,您需要了解 Hive metastore(HMS)如何存储 Hive 表。语句的成功或失败、生成的表类型和表位置取决于许多因素。


1) HMS 表转换


HMS 包括以下关于您创建的表的 Hive 元数据:

• 表定义

• 列名

• 数据类型

• 中央模式存储库中的评论


当您在CREATE TABLE语句中使用EXTERNAL关键字时,HMS会将表存储为外部表。当您省略 EXTERNAL 关键字并创建托管表或摄取托管表时,HMS 可能会将表转换为外部表,或者表创建可能会失败,具体取决于表属性。影响表转换的一个重要表属性是 ACID 或 Non-ACID 表类型:


非 ACID

表属性不包含任何设置为 true 的 ACID 相关属性。例如,该表不包含此类属性

transactional=true 或 insert_only=true。


ACID

表属性确实包含一个或多个设置为 true 的 ACID 属性。


完整的 ACID

表属性包含 transactional=true 但不包含 insert_only=true


仅插入的 ACID

表属性包含 insert_only=true。

以下矩阵显示了表类型以及是否支持位置属性。


image.png


HMS 检测与 HMS 交互的客户端类型,例如 Hive 或 Spark,并将客户端的能力与表要求进行比较。HMS 根据比较结果执行以下操作:


image.png


Spark 客户所需的能,出现以下类型的


image.png



目录
相关文章
|
3月前
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
76 3
|
4月前
|
存储 Cloud Native 关系型数据库
云原生数据仓库使用问题之如何将一行数据转换为多行数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
2月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
79 4
|
1月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
3月前
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
127 0
|
4月前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
5月前
|
存储 SQL Cloud Native
云原生数据仓库AnalyticDB产品使用合集之热数据存储空间在什么地方查看
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
117 4

热门文章

最新文章