Impala 需要的HDFS参数简析

简介:

安装Impala时需要调整几个HDFS参数,以达到最佳性能:

1.dfs.client.read.shortcircuit(必选):

当设置这个参数后,客户端callblockSeekTo(target)会去获取一个BlockReaderLocal,不过这里注意,当block复制未完成时不可进行shortcircuit read(HDFS-2757:https://issues.apache.org/jira/browse/HDFS-2757),其中的数据输入流和校验输入流(都是FileInputStream类型)是通过DomainSocket构建,因此需要正确设置参数dfs.domain.socket.path(当配置该参数时,由于创建输入流需要用到native library来处理fd,因此如果没有找到libhadoop或者版本不匹配,则会报异常);之后读取都是直接进行本地读而不用走IPC.

另外,还有另外几个相关的参数:dfs.client.read.shortcircuit.streams.cache.sizedfs.client.read.shortcircuit.streams.cache.expiry.ms以及dfs.client.read.shortcircuit.skip.checksumdfs.client.read.shortcircuit.buffer.size.其中,在客户端读取前会创建一个FileinputStreamCache,就是由前两个参数控制大小和过期时间的,其中key就是Datanode+block;后两个参数就是决定是否跳过校验以及校验的块大小.

2.dfs.datanode.hdfs-blocks-metadata.enabled(可选)

enable这个特性后,客户端可以call getFileBlockStorageLocations这个API来获取Block(BLOCKLOCATION)disk(VOLUMNS)的映射:

首先并行(并行度和超时时间通过dfs.client.file-block-storage-locations.num-threadsdfs.client.file-block-storage-locations.timeout决定)对Datanode进行RPC CALL获取所有副本的HdfsBlockMetadata,之后利用该信息构建映射并返回.


本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1308463,如需转载请自行联系原作者


相关文章
|
弹性计算 分布式计算 网络协议
聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname
企业真实的网络环境是复杂多变的,在复杂的网络环境中部署并使用 hadoop 时,如果服务端的配置或客户端的使用不当,就可能会遇见各种问题。
聊聊复杂网络环境下hdfs的BlockMissingException异常|参数dfs.client.use.datanode.hostname
|
分布式计算 Hadoop API
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
|
SQL 分布式计算 Hadoop
HDFS命令行客户端使用,命令行客户端支持的命令参数,常用命令参数介绍
3.HDFS的shell(命令行客户端)操作 3.1 HDFS命令行客户端使用 HDFS提供shell命令行客户端,使用方法如下: [toto@hadoop hadoop-2.8.0]$ hdfs dfs -ls /     (推荐使用这种方式,hdfs现在这种是最新的一种方式) Found 4 items drwxr-xr-x   - toto supergroup        
1500 0
Hadoop-2.7.0 HDFS DataXceiverServer两个参数的疑问
1、TcpPeerServer的数据接收缓冲区大小         Hadoop-2.7.0的DataXceiverServer中,在DataNode中对其初始化时,会构造一个TcpPeerServer,并设置数据接收缓冲区大小如下: tcpPeerServer.
1030 0
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
133 6
|
1月前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
59 3
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
32 4
|
1月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
72 5
|
1月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
35 4
|
1月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
141 5
下一篇
无影云桌面