Impala新特性

简介:

本文主要整理一下 Impala 每个版本的新特性,方便了解 Impala 做了哪些改进、修复了哪些 bug。

Impala 目前最新版本为 1.4.0,其下载地址为:http://archive.cloudera.com/impala/redhat/6/x86_64/impala/

不得不说的事情:

  • 1.3.1 用于 CDH4
  • 1.4.0 用于 CDH5

1.4.0

1.3.1

该版本主要是 bug 修复,可以在 CDH 4 和 CDH 5 中使用。

  • 在 impalad 启动参数中,添加 --insert_inherit_permissions 参数用于设置创建分区的用户。默认的,INSERT 会使用 HDFS 权限为新分区创建目录,详细说明参考:INSERT Statement
  • SHOW 函数显示每个函数的返回类型,详细说明参考:SHOW Statement
  • CREATE TABLE 语句可以使用 ` FIELDS TERMINATED BY ‘\0’` 语句,详细说明参考:Using Text Data Files with Impala Tables
  • 在 1.3.1 以及更高版本后,REGEXP  RLIKE 的语义进行修正,和数据库中的语义进行兼容,详细说明参考:REGEXP Operatorregexp_extract() regexp_replace() 可以不再使用。

1.3.0

1.2.4

该版本用于 CDH4,主要针对 1.2.3 做了一些 bug 修复。

  • 增加 INVALIDATE METADATA table_name 语法刷新新建的一个表
  • 添加 catalogd 启动参数:
    • --load_catalog_in_background,是否后台运行
    • --num_metadata_loading_threads,并行加载线程

1.2.3

Impala 1.2.3 works with CDH 4 and with CDH 5 beta 2. The resource management feature requires CDH 5 beta.

该版本主要是在 1.2.2 基础上修复 Parquet 兼容性,详细说明参考:Known Issues and Workarounds in Impala

1.2.2

Impala 1.2.2 works with CDH 4. Its feature set is a superset of features in the Impala 1.2.0 beta, with the exception of resource management, which relies on CDH 5.

1.2.1

  • 添加 SHOW TABLE STATS table_name  SHOW COLUMN STATS table_name 语法
  • 添加 CREATE TABLE AS SELECT 语法
  • 支持 OFFSET 语句,用于分页查询
  • ORDER BY 语句中添加 NULLS FIRST  NULLS LAST 语法支持
  • 添加内置函数 least(), greatest(), initcap()
  • 添加 ndv() 函数来计算 COUNT(DISTINCT col)
  • LIMIT 语句接受数值表达式作为参数
  • SHOW CREATE TABLE
  • 添加两个参数:--idle_query_timeout  --idle_session_timeout,详细说明参考:Setting Timeout Periods for Daemons, Queries, and Sessions
  • 支持 UDFs,详细说明参考:CREATE FUNCTION Statement  DROP FUNCTION Statement
  • 添加新的同步元数据的机制,详细参考:The Impala Catalog Service
  • 添加 CREATE TABLE ... AS SELECT 语法
  • CREATE TABLE  ALTER TABLE 支持 TBLPROPERTIES  WITH SERDEPROPERTIES 语句,详细说明参考:CREATE TABLE Statement  ALTER TABLE Statement
  • EXPLAIN
  • SHOW CREATE TABLE
  • LIMIT 语句支持算术表达式

另外,impala 的一些不兼容的变化,请参考:Incompatible Changes in Impala

Impala 一些已知的问题:Known Issues and Workarounds in Impala

已经修复的问题:Fixed Issues in Impala

目录
相关文章
|
5月前
|
存储 分布式计算 Hadoop
impala入门(一篇就够了)
impala入门(一篇就够了)
108 0
|
4月前
|
SQL 分布式计算 Hadoop
Apache Impala 的安装部署
Apache Impala 的安装部署
94 0
|
SQL 存储 分布式计算
Impala 架构了解
Impala 架构了解
Impala 架构了解
|
SQL XML 分布式计算
CDH 搭 建_Impala|学习笔记
快速学习 CDH 搭 建_Impala
410 0
CDH 搭 建_Impala|学习笔记
|
SQL 分布式计算 Java
KuduSpark_Impala 访问 Kudu | 学习笔记
快速学习 KuduSpark_Impala 访问 Kudu
256 0
KuduSpark_Impala 访问 Kudu | 学习笔记
|
SQL Java 数据库连接
JDBC 操作 impala | 学习笔记
快速学习 JDBC 操作 impala
879 0
JDBC 操作 impala | 学习笔记
Impala——2.架构
标签(空格分隔): Impala Impala Server的组件 Impala服务器是分布式,大规模并行处理(MPP)数据库引擎。它由不同的在群集中的特定主机上运行的守护程序进程组成。 Impala守护进程 核心Impala组件是一个守护进程,它通过impalad进程在集群的每个DataNode上运行。
1649 0
Impala——1.概述
标签(空格分隔): Impala Impala是什么 官方论文 Impala对存储在HDFS,HBase的Apache Hadoop数据和存储在Amazon S3上的数据提供快速,交互式的SQL查询。
1570 0
|
存储 SQL 大数据