Impala——1.概述

简介: 标签(空格分隔): ImpalaImpala是什么官方论文Impala对存储在HDFS,HBase的Apache Hadoop数据和存储在Amazon S3上的数据提供快速,交互式的SQL查询。

标签(空格分隔): Impala


Impala是什么

官方论文

Impala对存储在HDFS,HBase的Apache Hadoop数据和存储在Amazon S3上的数据提供快速,交互式的SQL查询。 除了使用相同的统一存储平台外,Impala还使用了与Apache Hive相同的元数据、SQL语法(Hive SQL)、ODBC驱动程序和UI(Hue中的Impala查询UI)。
这为实时查询或面向批处理的查询提供了熟悉且统一的平台。
Impala是可用于查询大数据的工具的补充。Impala不会取代构建在MapReduce上的批处理框架,如Hive。 基于MapReduce构建的Hive和其他框架最适合
长时间运行的批处理作业,例如涉及批处理ETL类型的作业。。

使用Impala的好处

Impala提供:

  • 数据科学家和分析师熟悉的SQL界面。
  • 能够在Apache Hadoop中查询大量数据(“大数据”)。
  • 在集群环境中进行分布式查询,以便于扩展和使用具有成本效益的普通硬件。
  • 能够在不同组件之间共享数据文件,无需复制或导出/导入步骤; 例如,可以使用Pig写数据,使用Hive进行转换并使用Impala进行查询。 Impala可以读取和写入Hive表,也支持使用Impala进行简单的数据内部交换,以便对Hive生成的数据进行分析。
  • 用于大数据处理和分析的单一系统,因此客户可以避免昂贵的建模和ETL
    分析。

Impala如何工作在Hadoop上

Impala解决方案由以下组件组成:

  • 客户端Clients - 实体包括Hue,ODBC客户端,JDBC客户端和Impala Shell都可以与Impala进行交互。
    这些界面通常用于发出查询或完成管理任务,例如连接到Impala。
  • Hive Metastore - 存储有关Impala可用数据的信息。例如,Metastore让Impala知道可用的数据库以及这些数据库的结构。比如你可以通过Impala SQL语句创建、删除和更改schema,将数据加载到表中等等,相关的元数据更改都是通过Impala 1.2中引入的专用目录服务自动向所有Impala节点广播。
  • Impala - 此进程在DataNode上运行,协调和执行查询。Impala的每个实例都可以从Impala客户端接收、计划和协调查询。查询分布在Impala节点上,
    这些节点然后充当worker执行并行查询片段。
  • HBase和HDFS - 要查询的数据的存储。

使用Impala执行的查询处理如下:

  1. 用户应用程序通过ODBC或JDBC向Impala发送SQL查询,这些驱动提供标准化查询接口。用户应用程序可以连接到群集中的任何impalad。这个impalad成了查询的协调员。
  2. Impala解析查询并对其进行分析,以确定impalad实例需要执行哪些任务在整个集群。计划执行以实现最佳效率。
  3. 本地impalad实例访问HDFS和HBase等服务以提供数据。
  4. 每个impalad将数据返回给协调impalad,后者将这些结果发送给客户端client。

基本的Impala特性

Impala为以下方面提供支持:

  • Hive查询语言(HiveQL)的最常见SQL-92功能,包括SELECT,join和aggregate函数。
  • HDFS,HBase和Amazon Simple Storage System(S3)存储,包括:

    • HDFS文件格式:CSV,Parquet,Avro,SequenceFile和RCFile。
    • 压缩编解码器:Snappy,GZIP,Deflate,BZIP。
  • 通用数据访问接口,包括:

    • JDBC驱动程序。
    • ODBC驱动程序。
    • Hue Beeswax和Impala Query UI。
  • impala-shell命令行界面。
  • Kerberos身份验证。
目录
相关文章
|
Java 编译器
Java“精度可能丢失”错误解决
在处理Java编程语言中“精度可能丢失”的警告或错误信息时,通常涉及到数据类型之间的转换,特别是从高精度类型(如long、double)转换到低精度类型(如int、short)时。本指南将帮助你理解这一问题的根源,并提供有效策略来避免或解决此类错误,确保程序正确无误地运行。我们将会探讨如何使用显式类型转换(cast),以及如何优化代码逻辑来规避潜在的数据丢失风险。
751 0
|
大数据
阿里云EMR到底是什么?一图带你深入了解!
阿里云开源大数据平台E-MapReduce是运行在阿里云平台上的一种大数据处理的系统解决方案,那么它到底有着怎样的功能及优势呢?一起来看看吧!
4005 0
阿里云EMR到底是什么?一图带你深入了解!
|
JSON JavaScript 前端开发
蓝桥杯web组赛题解析和杯赛技巧
本文作者是一位自学前端两年半的大一学生,在第十五届蓝桥杯Web组比赛中获得省一和国三。文章详细解析了比赛题纲,涵盖HTML、CSS、JavaScript、Echarts和Vue等技术要点,并分享了备赛技巧和比赛经验。作者强调了多写代码和解题思路的重要性,同时提供了省赛和国赛的具体流程及注意事项。希望对参赛者有所帮助。
1257 11
|
固态存储 内存技术
升级电脑内存和硬盘
升级电脑内存和硬盘
460 6
|
机器学习/深度学习 安全 Java
【网安AIGC专题10.19】论文6(顶会ISSTA 2023):提出新Java漏洞自动修复数据集:数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
【网安AIGC专题10.19】论文6(顶会ISSTA 2023):提出新Java漏洞自动修复数据集:数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
945 0
|
域名解析 运维 负载均衡
LVS+Keepalived 负载均衡(二)28-1
【8月更文挑战第28天】LVS+Keepalived 负载均衡 配置 LVS VIP
303 6
|
缓存 安全 Unix
Linux 内核黑客不可靠指南【ChatGPT】
Linux 内核黑客不可靠指南【ChatGPT】
|
机器学习/深度学习 分布式计算 Cloud Native
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
422 2
|
存储 SQL 缓存
【软件设计师备考 专题 】数据库模型(概念模式、外模式、内模式)
【软件设计师备考 专题 】数据库模型(概念模式、外模式、内模式)
888 1
|
Windows Linux
dietpi远程桌面与中文汉化教程
今天教大家dietpi系统汉化教程,当然如果你刷的不是dietpi也可以参照教程思路进行汉化.比如:armbian 固件下载链接:dietpi下载armbian下载如果你已经刷好固件了那么就开始吧! 1.
4644 0

热门文章

最新文章