Hadoop大数据平台实战(01)：Impala vs Hive的区别-阿里云开发者社区

Hadoop大数据平台实战(01)：Impala vs Hive的区别

2019-04-05 4883

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hadoop大数据生态系统重要的2个框架Apache Hive和Impala，用于在HDFS和HBase上进行大数据分析。但Hive和Impala之间存在一些差异--Hadoop生态系统中的SQL分析引擎的竞争。本文中我们会来对比两种技术Impala vs Hive区别？

Hadoop大数据生态系统重要的2个框架Apache Hive和Impala，用于在HDFS和HBase上进行大数据分析。但Hive和Impala之间存在一些差异--Hadoop生态系统中的SQL分析引擎的竞争。本文中我们会来对比两种技术Impala vs Hive区别？

Hive介绍
Apache Hive™是开源的数据仓库框架，基于Hadoop构建，使用SQL语法读取Hadoop数据，分析保存在分布式存储中HDFS或者HBase数据库中的大型数据集。

Hive最早由Facebook开发，后来2008年贡献给Apache软件基金会。此外，Hive的用途非常广泛，因为它支持分析存储在Hadoop的HDFS和其他兼容文件系统中的大量数据集。像亚马逊S3。
Hive是一个在Hadoop集群之上运行的开源数据仓库和分析包。 Hive脚本使用类似SQL的语言，称为Hive QL（查询语言），它抽象编程模型并支持典型的数据仓库交互。 Hive使开发者能够避免接触底层机制，如（如Java）中的有向非循环图（DAG）或MapReduce程序编写Tez作业，降低复杂性。
Hadoop中SQL查询的事实标准
自2008年孵化以来，Apache Hive被认为是Hadoop中数PB数据的交互式SQL查询的事实标准。Hive使用熟悉的JDBC接口轻松与其他关键数据中心技术集成。
Hive提供类SQL的语言（HiveQL），在读取时使用模式，并将查询透明地转换为MapReduce任务，Apache Tez和Spark Jobs来分析数据。
Hive功能特性：

提供索引加速分析处理
Hive支持多种类型的存储。如纯文本，RCFIle，HBase，ORC
此外，它还支持RDBMS中的元数据存储
Hive支持SQL之类的查询。虽然我们可以隐式转换为MapReduce，Tez或Spark作业
要操纵字符串，日期内置用户定义函数（UDF）
Hive 官方网站 http://hive.apache.org/

LLAP Hive（Live Long and Process）利用具有智能内存缓存的持久查询服务器来避免Hadoop的面向批处理的延迟问题，并提供与次数较小的数据量一样快的亚秒查询响应时间，而Hive on Tez继续针对PB级数据集提供出色的批量查询性能，性能做了优化加速。
Hive中的表与关系数据库中的表类似，数据单元按从大到小单位的分类法进行组织。数据库由表组成，表由分区组成。可以通过简单的查询语言访问数据，Hive支持覆盖或附加数据。

在特定数据库中，表中的数据是序列化的，每个表都有一个对应的Hadoop分布式文件系统（HDFS）目录。每个表可以细分为多个分区，用于确定数据在表目录的子目录中的分布方式。分区内的数据可以进一步细分为存储桶。

Hive支持所有常见的数据类型，如BIGINT，BINARY，BOOLEAN，CHAR，DECIMAL，DOUBLE，FLOAT，INT，SMALLINT，STRING，TIMESTAMP和TINYINT。此外，我们也可以组合原始数据类型以形成复杂的数据类型，
Impala介绍

Impala是Cloudera公司开发的全新的开源大数据分析引擎MPP，它提供类SQL语法，能处理存储在Hadoop的HDFS和HBase中大数据。
不同于之前的Hive，虽然Hive也提供了SQLL语法，但Hive底层依赖于是MapReduce分析引擎，难以实现复杂查询的交互性。
Impala提高了Apache Hadoop上SQL查询性能，节约了大数据分析的时间，同时保留了熟悉的SQL语法用户体验。使用Impala，可以实时查询存储在HDFS和Apache HBase的数据 - 支持包括SELECT，JOIN和聚合函数。此外，Impala使用与Apache Hive相同的元数据，SQL语法（Hive SQL），ODBC驱动和用户界面UI（Hue Beeswax），为批处理或实时查询管理操作提供了熟悉且统一的平台。（Hive开发者可以很快熟悉Impala）
Impala是一个开源的大规模并行处理（MPP）SQL引擎。在HDFS和Apache HBase上运行查询。它不需要先移动或转换数据。很容易与整个Hadoop生态系统集成。此外，对于开源交互式商业智能任务，Impala跨框架的统一资源管理使其成为标准。

Impala的功能包括：

Impala支持Hadoop分布式文件系统（HDFS）和Apache HBase
Impala还识别Hadoop文件格式，如文本，LZO，Avro，RCFile，Parquet
它还支持Kerberos身份验证
支持Apache Sentry，提供基于角色的授权。
Impala的优点：
由于在数据节点上本地处理，避免了网络传输的性能瓶颈。
可以使用单个，开放且统一的元数据存储中心。
不需要昂贵的数据格式转换，因此不会产生任何开销。
所有数据都可以立即查询，ETL没有延迟。
所有硬件都用于Impala查询以及MapReduce分析。
只需要一个机器池即可扩展集群。
官方网站：https://impala.apache.org/

参考:
https://hive.apache.org/
https://impala.apache.org/

Hadoop大数据平台实战(01)：Impala vs Hive的区别

Java技术进阶

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Hadoop大数据平台实战(01)：Impala vs Hive的区别

Java技术进阶

热门文章

最新文章

相关课程

相关电子书