《HBase管理指南》一1.8　Hadoop/ZooKeeper/HBase基本配置-阿里云开发者社区

《HBase管理指南》一1.8　Hadoop/ZooKeeper/HBase基本配置

2017-05-02 1619

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

注册配置 MSE Nacos/ZooKeeper，118元/月

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

简介：

本节书摘来异步社区《HBase管理指南》一书中的第1章，第1.8节，作者：蒋燚峰译者：苏南，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.8　Hadoop/ZooKeeper/HBase基本配置

在进行下一步工作之前，我们需要进行一些基本设置的调优。这都是一些非常基本和非常重要的Hadoop（HDFS）、ZooKeeper和HBase设置，你应该在安装好集群后立刻修改这些设置。

有些设置会对数据持久性或集群可用性产生影响，因此必须进行配置，而另外一些设置则是为保证HBase顺畅运行而推荐你进行的设置。

这些配置的设置值取决于你的硬件、数据量和集群的规模。本节将对此进行一种指南式的描述。你可能需要根据自己的具体环境对这些设置值进行一些修改。

每次修改都需要先同步到所有客户端和从节点上，然后再重新启动相应的守护进程，这样才能使修改生效。

1.8.1　操作步骤

集群的配置应该进行如下一些修改。

1．打开HDFS的dfs.support.append属性。dfs.support.append属性决定HDFS是否支持追加（sync）功能。其默认值为false。必须将其设置为true，否则在区域服务器崩溃时，就有可能丢失数据。

hadoop$ vi $HADOOP_HOME/conf/hdfs-site.xml
  <property>
    <name>dfs.support.append</name>
    <value>true</value>
  </property>

2．调高dfs.datanode.max.xcievers属性的值，使DataNode可以让更多数量的线程保持打开，以便可以处理更多的并发请求。

hadoop$ vi $HADOOP_HOME/conf/hdfs-site.xml
  <property>
    <name>dfs.datanode.max.xcievers</name>
    <value>4096</value>
  </property>

3．调高ZooKeeper堆内存的大小，以使该内存不必进行交换。

hadoop$ vi $ZK_HOME/conf/java.env
export JAVA_OPTS="-Xms1000m -Xmx1000m"

4．调高ZooKeeper的最大客户端连接数，以便处理更多的并发请求。

hadoop$ echo "maxClientCnxns=60" >> $ZK_HOME/conf/zoo.cfg
5．调高HBase堆内存的大小，以使HBase可以顺畅运行。

hadoop$ vi $HBASE_HOME/conf/hbase-env.sh
export HBASE_HEAPSIZE=8000

6．调低zookeeper.session.timeout属性的值，以使HBase可以很快发现某台区域服务器已宕机，并且能够在很短时间内对其进行恢复。

hadoop$ vi $HBASE_HOME/conf/hbase-site.xml
  <property>
    <name>zookeeper.session.timeout</name>
    <value>60000</value>
  </property>

7．若要修改Hadoop/ZooKeeper/HBase的日志设置，需要修改Hadoop/ZooKeeper/HBase各自安装目录下的conf目录中的log4j.properties文件和hadoop-env.sh或hbase-env.sh文件。最好能将日志目录改到安装文件夹之外。例如，下面这个例子就将HBase的日志目录指定到了/usr/local/hbase/logs目录上。

hadoop$ vi $HBASE_HOME/conf/hbase-env.sh
export HBASE_LOG_DIR=/usr/local/hbase/logs

1.8.2　运行原理

在第1步中，我们通过打开dfs.support.append属性，因而启用了HDFS的写盘功能。在启用了该功能之后，我们可以通过调用flush函数来让HDFS写进程确保对数据进行了持久化。这样HBase就可以保证：在一台区域服务器发生宕机时，我们可以通过在其他区域服务器上重演故障服务器的预写日志（WAL，Write-Ahead Log）的方式来恢复故障服务器上的数据。

若想确认是否支持HDFS追加功能，可查看HBase启动时的HMaster日志。如果没有启用追加功能，你就会看到类似下面这样的日志。

$ grep -i "HDFS-200" hbase-hadoop-master-master1.log
...syncFs -- HDFS-200 -- not available, dfs.support.append=false

在第2步中，我们对dfs.datanode.max.xcievers属性进行了配置，该属性指定了HDFS的DataNode可同时打开的文件数量的上限。

提示

请注意，该属性的名字是xcievers，这个名字有拼写错误。其默认值是256，这个值太低，无法在HDFS上运行HBase。

第3步和第4步是设置ZooKeeper的属性。ZooKeeper对于内存交换非常敏感，内存交换会使其性能严重降低。ZooKeeper的堆内存大小需要在java.env文件中设置。ZooKeeper可同时打开的连接的数量也有一个上限。其默认值是10，这对于HBase来说太低了，尤其是还要在HBase上运行MapReduce的时候。我们建议你把它设置为60。

在第5步中，我们配置了HBase堆内存的大小。HBase默认的堆大小为1GB，对于当前服务器的硬件水平来说，这也太低了。对于大型的机器来说，8GB或更大都是一个比较合理的值，但不要超过16GB。

在第6步中，我们将ZooKeeper的会话超时时间修改为一个较低的值。超时时间更短意味着HBase可以更快地发现有区域服务器发生了宕机，因此，HBase可以在很短的时间内在其他服务器上恢复那些被毁坏的区域。另一方面，如果会话超时时间过短，也会有在集群负载很重时HRegionServer守护进程将自己的进程杀掉的风险，因为它可能还没来得及把心跳信号发给ZooKeeper，时间就已经超时了。

1.8.3　参考章节

第8章“基本性能调整”
第9章“高级配置和调整”

《HBase管理指南》一1.8　Hadoop/ZooKeeper/HBase基本配置

1.8　Hadoop/ZooKeeper/HBase基本配置

1.8.1　操作步骤

1.8.2　运行原理

1.8.3　参考章节

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《HBase管理指南》一1.8 Hadoop/ZooKeeper/HBase基本配置

1.8 Hadoop/ZooKeeper/HBase基本配置

1.8.1 操作步骤

1.8.2 运行原理

1.8.3 参考章节

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《HBase管理指南》一1.8　Hadoop/ZooKeeper/HBase基本配置

1.8　Hadoop/ZooKeeper/HBase基本配置

1.8.1　操作步骤

1.8.2　运行原理

1.8.3　参考章节