《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2) https://developer.aliyun.com/article/1226345?groupCode=ClouderaCDP
5. Cloudera 搜索
Cloudera Search 是完全集成在 Cloudera 平台中的 Apache Solr,利用了 Cloudera Data Platform(CDP)中包含的灵活、可扩展且强大的存储系统和数据处理框架。这消除了跨基础设施移动大型数据集以执行业务任务的需要。它进一步支持简化的数据管道,其中搜索和文本匹配是更大工作流程的一部分。
Cloudera Search 提供对 Hadoop、HBase 或云存储中存储或摄取的数据的简单、自然的语言访问。最终用户和其他 Web 服务可以使用全文查询和分面钻取来探索文本、半结构化和结构化数据,并快速过滤和聚合这些数据以获得业务洞察力,而无需 SQL 或编程技能。
《CDP企业数据云平台从入门到实践》——CDP之数据仓库(4) https://developer.aliyun.com/article/1226337?groupCode=ClouderaCDP
将 Cloudera Search 与 CDP 基础设施结合使用可提供:
• 简化的基础设施
• 更好的生产可见性和控制
• 更快地了解各种数据类型
• 更快地解决问题
• 为 SQL 以外的更多用户和用例简化交互和平台访问
• 用于在同一数据上运行其他类型工作负载的同一平台上搜索服务的可扩展性、灵活性和可靠性
• 跨所有流程的统一安全模型,可以访问您的数据
• 摄取和预处理选项的灵活性和规模
下表描述了 Cloudera 搜索功能。
二、 使用 APACHE HIVE METASTORE
1. HMS 表存储
当您运行 CREATE TABLE 语句或将表迁移到 Cloudera Data Platform 时,您需要了解 Hive metastore(HMS)如何存储 Hive 表。语句的成功或失败、生成的表类型和表位置取决于许多因素。
1) HMS 表转换
HMS 包括以下关于您创建的表的 Hive 元数据:
• 表定义
• 列名
• 数据类型
• 中央模式存储库中的评论
当您在CREATE TABLE语句中使用EXTERNAL关键字时,HMS会将表存储为外部表。当您省略 EXTERNAL 关键字并创建托管表或摄取托管表时,HMS 可能会将表转换为外部表,或者表创建可能会失败,具体取决于表属性。影响表转换的一个重要表属性是 ACID 或 Non-ACID 表类型:
非 ACID
表属性不包含任何设置为 true 的 ACID 相关属性。例如,该表不包含此类属性
transactional=true 或 insert_only=true。
ACID
表属性确实包含一个或多个设置为 true 的 ACID 属性。
完整的 ACID
表属性包含 transactional=true 但不包含 insert_only=true
仅插入的 ACID
表属性包含 insert_only=true。
以下矩阵显示了表类型以及是否支持位置属性。
HMS 检测与 HMS 交互的客户端类型,例如 Hive 或 Spark,并将客户端的能力与表要求进行比较。HMS 根据比较结果执行以下操作:
例如,如果 Spark 客户端不具备所需的功能,则会出现以下类型的错误消息: