《CDP企业数据云平台从入门到实践》——CDP之数据仓库(1) https://developer.aliyun.com/article/1226353?groupCode=ClouderaCDP
3. Apache Impala 概述
Apache Impala 对以流行的 Apache Hadoop 文件格式存储的数据提供高性能、低延迟的 SQL 查询。Impala 解决方案由以下组件组成。
• Impala
Impala 服务协调并执行从客户端收到的查询。查询分布在 Impala 节点之间,然后这些节点充当工作人员,执行并行查询片段。
• Hive Metastore
存储有关 Impala 可用数据的信息。例如,元存储让 Impala 知道哪些数据库可用以及这些数据库的结构是什么。当您通过 Impala SQL 语句创建、删除和更改模式对象、将数据加载到表中等时,相关的元数据更改会通过专用目录服务自动广播到所有 Impala 节点。
• Client
包括 Hue、ODBC 客户端、JDBC 客户端、商业智能应用程序和 Impala Shell 在内的实体都可以与 Impala 交互。这些接口通常用于发出查询或完成管理任务,例如连接到 Impala。
• 待查询数据的存储
使用 Impala 执行的查询处理如下:
用户应用程序通过提供标准化查询接口的 ODBC 或 JDBC 向 Impala 发送SQL 查询。用户应用程序可以连接到 impalad 集群中的任何一个。这个impalad 成为查询的协调器。
impala 解析查询并对其进行分析以确定集群中的实例需要执行哪些任务。计划执行以获得最佳效率。
本地实例访问存储服务 impalad 以提供数据。
每个 impalad 将数据返回给协调器 impalad,协调器将这些结果发送给客户端。
4. Hue 概述
Hue 是一种基于 Web 的交互式查询编辑器,可让您与数据库和数据仓库进行交互。数据架构师、SQL 开发人员和数据工程师使用 Hue 创建数据模型、清理数据以准备分析,以及构建和测试应用程序的 SQL 脚本。
Hue 整合了 Data Analytics Studio(DAS)的查询优化、查询调试框架和 Hue 丰富的查询编辑器体验等综合能力,使 Hue 成为 CDP 上的下一代 SQL 助手。您可以搜索 Hive 查询历史记录,查看查询详细信息、可视化解释计划和 DAG 信息,比较两个查询,并从Job Browser 页面下载调试包以进行故障排除。
Hue 为以下关键大数据角色提供强大的执行、调试和自助服务功能:
• 业务分析师
• 数据工程师
• 数据科学家
• 高级 SQL 用户
• 数据库管理员
• 开发人员
所有 Hue 用户都可以下载日志并与他们的 DBA 或 Cloudera 支持共享,以进行调试和故障排除。
SQL 开发人员可以使用 Hue 创建数据集,以生成经常被其他商业智能(BI)工具(例如 Cloudera Data Visualization)使用的报告和仪表板。
Hue 可以稀疏地用作搜索仪表板工具,通常用于为生产环境制作自定义搜索应用程序的原型。
例如,下图显示了可以使用 Hue 生成的 Impala SQL 查询结果的图形表示:
图 1.使用 Hue 生成的 Impala SQL 查询结果
您可以使用 Hue 来:
• 通过页面左侧面板中的引导式导航探索、浏览和导入您的数据。
从左侧面板,您可以:
浏览您的数据库
深入到特定表
查看 HDFS 目录和云存储
发现索引和 HBase 或 Kudu 表
查找文件
如果需要,可以标记对象以便快速检索、项目关联或分配一个更“人类可读”的名
称。
• 在页面的中央面板中查询您的数据、创建自定义仪表板或安排重复性作业。
页面的中央面板提供了丰富的工具集,包括:
多功能编辑器,使您能够创建各种各样的脚本。
您可以通过将元素拖放到 Hue 界面的中央面板来“即时”创建的仪表板。无需编程。然后您可以使用您的自定义仪表板来探索您的数据。
您可以通过拖放创建的调度程序,就像仪表板功能一样。此功能使您能够创建自定义工作流并安排它们定期自动运行。监控界面显示进度、日志,并可以停止或暂停作业。
• 使用右侧的帮助面板获取有关如何完成任务的专家建议。
右侧的助手面板为中央面板中当前使用的任何应用程序提供专家建议和提示。例如,在上图中,提供了 Impala SQL 提示以帮助在中央面板中构建查询。
• (仅限 Hive)查看查询详细信息,例如查询信息、可视化解释、查询时间线、查询配置、有向无环图(DAG)信息、DAG 流、DAG 泳道、DAG 计数器和 DAG配置。
(仅限 Hive)比较两个查询。
(仅限 Hive)终止 Hive 查询。
(仅限 Hive)查看查询历史记录。
(仅限 Hive)下载调试包。
除了 HBase shell 和数据库 API 之外,Hue 还提供了一个简单的 SQL 接口来使用Apache Phoenix 创建、访问和查询 HBase 表。
《CDP企业数据云平台从入门到实践》——CDP之数据仓库(3) https://developer.aliyun.com/article/1226342?groupCode=ClouderaCDP