《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3)

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2) https://developer.aliyun.com/article/1226345?groupCode=ClouderaCDP


5. Cloudera 搜索


Cloudera Search 是完全集成在 Cloudera 平台中的 Apache Solr,利用了 Cloudera Data Platform(CDP)中包含的灵活、可扩展且强大的存储系统和数据处理框架。这消除了跨基础设施移动大型数据集以执行业务任务的需要。它进一步支持简化的数据管道,其中搜索和文本匹配是更大工作流程的一部分。


Cloudera Search 提供对 Hadoop、HBase 或云存储中存储或摄取的数据的简单、自然的语言访问。最终用户和其他 Web 服务可以使用全文查询和分面钻取来探索文本、半结构化和结构化数据,并快速过滤和聚合这些数据以获得业务洞察力,而无需 SQL 或编程技能。


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4) https://developer.aliyun.com/article/1226337?groupCode=ClouderaCDP


将 Cloudera Search 与 CDP 基础设施结合使用可提供:


• 简化的基础设施

• 更好的生产可见性和控制

• 更快地了解各种数据类型

• 更快地解决问题

• 为 SQL 以外的更多用户和用例简化交互和平台访问

• 用于在同一数据上运行其他类型工作负载的同一平台上搜索服务的可扩展性、灵活性和可靠性

• 跨所有流程的统一安全模型,可以访问您的数据

• 摄取和预处理选项的灵活性和规模


下表描述了 Cloudera 搜索功能。


image.png

image.png


二、 使用 APACHE HIVE METASTORE


1. HMS 表存储


当您运行 CREATE TABLE 语句或将表迁移到 Cloudera Data Platform 时,您需要了解 Hive metastore(HMS)如何存储 Hive 表。语句的成功或失败、生成的表类型和表位置取决于许多因素。


1) HMS 表转换


HMS 包括以下关于您创建的表的 Hive 元数据:

• 表定义

• 列名

• 数据类型

• 中央模式存储库中的评论


当您在CREATE TABLE语句中使用EXTERNAL关键字时,HMS会将表存储为外部表。当您省略 EXTERNAL 关键字并创建托管表或摄取托管表时,HMS 可能会将表转换为外部表,或者表创建可能会失败,具体取决于表属性。影响表转换的一个重要表属性是 ACID 或 Non-ACID 表类型:


非 ACID

表属性不包含任何设置为 true 的 ACID 相关属性。例如,该表不包含此类属性

transactional=true 或 insert_only=true。


ACID

表属性确实包含一个或多个设置为 true 的 ACID 属性。


完整的 ACID

表属性包含 transactional=true 但不包含 insert_only=true


仅插入的 ACID

表属性包含 insert_only=true。

以下矩阵显示了表类型以及是否支持位置属性。


image.png


HMS 检测与 HMS 交互的客户端类型,例如 Hive 或 Spark,并将客户端的能力与表要求进行比较。HMS 根据比较结果执行以下操作:


image.png


Spark 客户所需的能,出现以下类型的


image.png



目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
106 0
|
1月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
306 0
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
68 0
|
1月前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
218 2
数据仓库(09)数仓缓慢变化维度数据的处理
|
3月前
|
存储 机器学习/深度学习 数据挖掘
数据仓库与数据湖:解析数据驱动的未来
在数字化时代,数据成为企业决策的核心资源。本文将深入探讨数据仓库和数据湖的概念、特点以及应用场景,分析其在实现数据驱动决策过程中的重要性和优势,并展望数据驱动的未来发展趋势。
54 5
|
3月前
|
SQL 分布式计算 Java
数仓学习---7、数据仓库设计、数据仓库环境准备、模拟数据生成
数仓学习---7、数据仓库设计、数据仓库环境准备
130 2
|
4月前
|
Cloud Native 关系型数据库 MySQL
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
81 0
|
4月前
|
Cloud Native 关系型数据库 MySQL
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
37 0
|
4月前
|
关系型数据库 MySQL OLAP
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
云数据仓库ADB如何更新、删除和导入AnalyticDBMySQL数据-更新数据?
200 0
|
4月前
|
存储 数据采集 缓存
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
云数据仓库ADB问一下,数据批量导入失败的有地方导出吗?
36 0