Spark 读取 Hbase 优化 --手动划分 region 提高并行数-阿里云开发者社区

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

2018-12-15 2066

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

一. Hbase 的 region

我们先简单介绍下 Hbase 的架构和 region ：

从物理集群的角度看，Hbase 集群中，由一个 Hmaster 管理多个 HRegionServer，其中每个 HRegionServer 都对应一台物理机器，一台 HRegionServer 服务器上又可以有多个 Hregion（以下简称 region）。要读取一个数据的时候，首先要先找到存放这个数据的 region。而 Spark 在读取 Hbase 的时候，读取的 Rdd 会根据 Hbase 的 region 数量划分 stage。所以当 region 存储设置得比较大导致 region 比较少，而 spark 的 cpu core 又比较多的时候，就会出现无法充分利用 spark 集群所有 cpu core 的情况。

我们再从逻辑表结构的角度看看 Hbase 表和 region 的关系。

Hbase是通过把数据分配到一定数量的region来达到负载均衡的。一个table会被分配到一个或多个region中，这些region会被分配到一个或者多个regionServer中。在自动split策略中，当一个region达到一定的大小就会自动split成两个region。
Region由一个或者多个Store组成，每个store保存一个columns family，每个Strore又由一个memStore和0至多个StoreFile 组成。memStore存储在内存中， StoreFile存储在HDFS上。
region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上，但并不是存储的最小单元。

二. Spark 读取 Hbase 优化及 region 手动拆分

在用spark的时候，spark正是根据hbase有多少个region来划分stage。也就是说region划分得太少会导致spark读取时的并发度太低，浪费性能。但如果region数目太多就会造成读写性能下降，也会增加ZooKeeper的负担。所以设置每个region的大小就很关键了。

自0.94.0版本以来，split还有三种策略可以选择，不过一般使用默认的分区策略就可以满足需求，我们要修改的是会触发 region 分区的存储容量大小。

而在0.94.0版本中，默认的 region 大小为10G，就是说当存储的数据达到 10 G 的时候，就会触发 region 分区操作。有时候这个值可能太大，这时候就需要修改配置了。我们可以在 HBASE_HOME/conf/hbase-site.xml 文件中，增加如下配置：

<property> 
<name>hbase.hregion.max.filesize</name> 
<value>536870912</value>
</property>

其中的 value 值就是你要修改的触发 region 分区的大小，要注意这个值是以 bit 为单位的，这里是将region文件的大小改为512m。

修改之后我们就可以手动 split region了，手动分区会自动根据这个新的配置值大小，将 region 已经存储起来的数据进行再次进行拆分。

我们可以在 hbase shell 中使用 split 来进行操作，有以下几种方式可以进行手动拆分。

split ‘tableName’ 
split ‘namespace:tableName’ 
split ‘regionName’ # format: ‘tableName,startKey,id’ 
split ‘tableName’, ‘splitKey’ 
split ‘regionName’, ‘splitKey’

这里使用的是 split ‘namespace:tableName’ 这种方式。其中 tableName 自不必多说，就是要拆分的表名，namespace可以在hbase的web界面中查看，一般会是default。

使用命令之后稍等一会，hbase会根据新的region文件大小去split，最终结果可以在web-ui的"table Details"一栏，点击具体table查看。

以上~

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

一. Hbase 的 region

二. Spark 读取 Hbase 优化及 region 手动拆分

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Spark 读取 Hbase 优化 --手动划分 region 提高并行数

一. Hbase 的 region

二. Spark 读取 Hbase 优化及 region 手动拆分

热门文章

最新文章

相关课程

相关电子书