《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2)

简介: 《CDP企业数据云平台从入门到实践》——CDP之数据仓库(2)

《CDP企业数据云平台从入门到实践》——CDP之数据仓库(1) https://developer.aliyun.com/article/1226353?groupCode=ClouderaCDP


3. Apache Impala 概述

Apache Impala 对以流行的 Apache Hadoop 文件格式存储的数据提供高性能、低延迟的 SQL 查询。Impala 解决方案由以下组件组成。


• Impala

Impala 服务协调并执行从客户端收到的查询。查询分布在 Impala 节点之间,然后这些节点充当工作人员,执行并行查询片段。


• Hive Metastore

存储有关 Impala 可用数据的信息。例如,元存储让 Impala 知道哪些数据库可用以及这些数据库的结构是什么。当您通过 Impala SQL 语句创建、删除和更改模式对象、将数据加载到表中等时,相关的元数据更改会通过专用目录服务自动广播到所有 Impala 节点。


• Client

包括 Hue、ODBC 客户端、JDBC 客户端、商业智能应用程序和 Impala Shell 在内的实体都可以与 Impala 交互。这些接口通常用于发出查询或完成管理任务,例如连接到 Impala。


• 待查询数据的存储


使用 Impala 执行的查询处理如下:

用户应用程序通过提供标准化查询接口的 ODBC 或 JDBC 向 Impala 发送SQL 查询。用户应用程序可以连接到 impalad 集群中的任何一个。这个impalad 成为查询的协调器。

impala 解析查询并对其进行分析以确定集群中的实例需要执行哪些任务。计划执行以获得最佳效率。

本地实例访问存储服务 impalad 以提供数据。

每个 impalad 将数据返回给协调器 impalad,协调器将这些结果发送给客户端。


4. Hue 概述


Hue 是一种基于 Web 的交互式查询编辑器,可让您与数据库和数据仓库进行交互。数据架构师、SQL 开发人员和数据工程师使用 Hue 创建数据模型、清理数据以准备分析,以及构建和测试应用程序的 SQL 脚本。


Hue 整合了 Data Analytics Studio(DAS)的查询优化、查询调试框架和 Hue 丰富的查询编辑器体验等综合能力,使 Hue 成为 CDP 上的下一代 SQL 助手。您可以搜索 Hive 查询历史记录,查看查询详细信息、可视化解释计划和 DAG 信息,比较两个查询,并从Job Browser 页面下载调试包以进行故障排除。


Hue 为以下关键大数据角色提供强大的执行、调试和自助服务功能:

• 业务分析师

• 数据工程师

• 数据科学家

• 高级 SQL 用户

• 数据库管理员

• 开发人员


所有 Hue 用户都可以下载日志并与他们的 DBA 或 Cloudera 支持共享,以进行调试和故障排除。


SQL 开发人员可以使用 Hue 创建数据集,以生成经常被其他商业智能(BI)工具(例如 Cloudera Data Visualization)使用的报告和仪表板。

Hue 可以稀疏地用作搜索仪表板工具,通常用于为生产环境制作自定义搜索应用程序的原型。


例如,下图显示了可以使用 Hue 生成的 Impala SQL 查询结果的图形表示:


图 1.使用 Hue 生成的 Impala SQL 查询结果

image.png

您可以使用 Hue 来:


• 通过页面左侧面板中的引导式导航探索、浏览和导入您的数据。

从左侧面板,您可以:

浏览您的数据库

深入到特定表

查看 HDFS 目录和云存储

发现索引和 HBase 或 Kudu 表

查找文件

如果需要,可以标记对象以便快速检索、项目关联或分配一个更“人类可读”的名

称。


• 在页面的中央面板中查询您的数据、创建自定义仪表板或安排重复性作业。


页面的中央面板提供了丰富的工具集,包括:

多功能编辑器,使您能够创建各种各样的脚本。

您可以通过将元素拖放到 Hue 界面的中央面板来“即时”创建的仪表板。无需编程。然后您可以使用您的自定义仪表板来探索您的数据。

您可以通过拖放创建的调度程序,就像仪表板功能一样。此功能使您能够创建自定义工作流并安排它们定期自动运行。监控界面显示进度、日志,并可以停止或暂停作业。


• 使用右侧的帮助面板获取有关如何完成任务的专家建议。

右侧的助手面板为中央面板中当前使用的任何应用程序提供专家建议和提示。例如,在上图中,提供了 Impala SQL 提示以帮助在中央面板中构建查询。


• (仅限 Hive)查看查询详细信息,例如查询信息、可视化解释、查询时间线、查询配置、有向无环图(DAG)信息、DAG 流、DAG 泳道、DAG 计数器和 DAG配置。

(仅限 Hive)比较两个查询。

(仅限 Hive)终止 Hive 查询。

(仅限 Hive)查看查询历史记录。

(仅限 Hive)下载调试包。

除了 HBase shell 和数据库 API 之外,Hue 还提供了一个简单的 SQL 接口来使用Apache Phoenix 创建、访问和查询 HBase 表。


image.png


《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3) https://developer.aliyun.com/article/1226342?groupCode=ClouderaCDP

目录
相关文章
|
3月前
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
66 3
|
4月前
|
存储 Cloud Native 关系型数据库
云原生数据仓库使用问题之如何将一行数据转换为多行数据
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
2月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
69 4
|
27天前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
|
3月前
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
105 0
|
4月前
|
存储 SQL Cloud Native
云原生数据仓库使用问题之如何将数据设置为冷存储
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
数据采集 存储 数据管理
OneData:阿里巴巴的数据仓库之旅与统一数据治理实践
OneData 为解决大数据时代的挑战提供了一条可行的道路,对于其他企业和组织来说具有重要的参考意义。随着技术的不断进步和应用场景的扩展,OneData 的未来发展值得期待。
|
5月前
|
存储 SQL Cloud Native
云原生数据仓库AnalyticDB产品使用合集之热数据存储空间在什么地方查看
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
117 4

热门文章

最新文章