《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2) https://developer.aliyun.com/article/1226345?groupCode=ClouderaCDP


5. Cloudera 搜索


Cloudera Search 是完全集成在 Cloudera 平台中的 Apache Solr,利用了 Cloudera Data Platform(CDP)中包含的灵活、可扩展且强大的存储系统和数据处理框架。这消除了跨基础设施移动大型数据集以执行业务任务的需要。它进一步支持简化的数据管道,其中搜索和文本匹配是更大工作流程的一部分。


Cloudera Search 提供对 Hadoop、HBase 或云存储中存储或摄取的数据的简单、自然的语言访问。最终用户和其他 Web 服务可以使用全文查询和分面钻取来探索文本、半结构化和结构化数据,并快速过滤和聚合这些数据以获得业务洞察力,而无需 SQL 或编程技能。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4) https://developer.aliyun.com/article/1226337?groupCode=ClouderaCDP


将 Cloudera Search 与 CDP 基础设施结合使用可提供:


• 简化的基础设施

• 更好的生产可见性和控制

• 更快地了解各种数据类型

• 更快地解决问题

• 为 SQL 以外的更多用户和用例简化交互和平台访问

• 用于在同一数据上运行其他类型工作负载的同一平台上搜索服务的可扩展性、灵活性和可靠性

• 跨所有流程的统一安全模型,可以访问您的数据

• 摄取和预处理选项的灵活性和规模


下表描述了 Cloudera 搜索功能。


image.png

image.png


二、 使用 APACHE HIVE METASTORE


1. HMS 表存储


当您运行 CREATE TABLE 语句或将表迁移到 Cloudera Data Platform 时,您需要了解 Hive metastore(HMS)如何存储 Hive 表。语句的成功或失败、生成的表类型和表位置取决于许多因素。


1) HMS 表转换


HMS 包括以下关于您创建的表的 Hive 元数据:

• 表定义

• 列名

• 数据类型

• 中央模式存储库中的评论


当您在CREATE TABLE语句中使用EXTERNAL关键字时,HMS会将表存储为外部表。当您省略 EXTERNAL 关键字并创建托管表或摄取托管表时,HMS 可能会将表转换为外部表,或者表创建可能会失败,具体取决于表属性。影响表转换的一个重要表属性是 ACID 或 Non-ACID 表类型:


非 ACID

表属性不包含任何设置为 true 的 ACID 相关属性。例如,该表不包含此类属性

transactional=true 或 insert_only=true。


ACID

表属性确实包含一个或多个设置为 true 的 ACID 属性。


完整的 ACID

表属性包含 transactional=true 但不包含 insert_only=true


仅插入的 ACID

表属性包含 insert_only=true。

以下矩阵显示了表类型以及是否支持位置属性。


image.png


HMS 检测与 HMS 交互的客户端类型,例如 Hive 或 Spark,并将客户端的能力与表要求进行比较。HMS 根据比较结果执行以下操作:


image.png


Spark 客户所需的能,出现以下类型的


image.png



目录
相关文章
|
22天前
|
存储 Cloud Native 关系型数据库
云原生数据仓库使用问题之如何将一行数据转换为多行数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
94 2
|
22天前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
22天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
23天前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
2月前
|
存储 SQL Cloud Native
云原生数据仓库AnalyticDB产品使用合集之热数据存储空间在什么地方查看
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库AnalyticDB产品使用合集之是否支持mysql_fdw 和clickhousedb_fdw外部数据包装器
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
127 4
|
2月前
|
监控 Cloud Native 关系型数据库
云原生数据仓库AnalyticDB产品使用合集之如何更新、删除和导入AnalyticDBMySQL数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
运维 Cloud Native 关系型数据库
云原生数据仓库AnalyticDB产品使用合集之一次性最多能查询多少条数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
3月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之在ADB中,如何将源数据的多表(数据结构一致)汇总到一张表
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章