Impala 需要的HDFS参数简析-阿里云开发者社区

Impala 需要的HDFS参数简析

2017-11-29 1430

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

安装Impala时需要调整几个HDFS参数，以达到最佳性能：

1.dfs.client.read.shortcircuit（必选）：

当设置这个参数后，客户端callblockSeekTo(target)会去获取一个BlockReaderLocal，不过这里注意，当block复制未完成时不可进行shortcircuit read(HDFS-2757:https://issues.apache.org/jira/browse/HDFS-2757),其中的数据输入流和校验输入流（都是FileInputStream类型）是通过DomainSocket构建，因此需要正确设置参数dfs.domain.socket.path（当配置该参数时，由于创建输入流需要用到native library来处理fd，因此如果没有找到libhadoop或者版本不匹配，则会报异常）；之后读取都是直接进行本地读而不用走IPC.

另外，还有另外几个相关的参数：dfs.client.read.shortcircuit.streams.cache.size和dfs.client.read.shortcircuit.streams.cache.expiry.ms以及dfs.client.read.shortcircuit.skip.checksum和dfs.client.read.shortcircuit.buffer.size.其中，在客户端读取前会创建一个FileinputStreamCache，就是由前两个参数控制大小和过期时间的，其中key就是Datanode+block；后两个参数就是决定是否跳过校验以及校验的块大小.

2.dfs.datanode.hdfs-blocks-metadata.enabled（可选）

当enable这个特性后，客户端可以call getFileBlockStorageLocations这个API来获取Block(BLOCKLOCATION)与disk(VOLUMNS)的映射:

首先并行（并行度和超时时间通过dfs.client.file-block-storage-locations.num-threads，dfs.client.file-block-storage-locations.timeout决定）对Datanode进行RPC CALL获取所有副本的HdfsBlockMetadata，之后利用该信息构建映射并返回.

本文转自MIKE老毕 51CTO博客，原文链接：http://blog.51cto.com/boylook/1308463，如需转载请自行联系原作者

Impala 需要的HDFS参数简析

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Impala 需要的HDFS参数简析

热门文章

最新文章

相关课程

相关电子书