hbase的Region分裂代码分析

简介: region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。

region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种情景在代码实现上并无多大差异。

1.下面以手动的split为例分析,手动split有HregionServer的splitRegion开始

  1. @Override//手动split的实现  
  2. public void splitRegion(HRegionInfo regionInfo, byte[] splitPoint)  
  3.     throws NotServingRegionException, IOException {  
  4.   checkOpen();  
  5.   HRegion region = getRegion(regionInfo.getRegionName());  
  6.   region.flushcache();//刷新memstore,减少内存堆积  
  7.   region.forceSplit(splitPoint);//强制split  
  8.   compactSplitThread.requestSplit(region, region.checkSplit());//通过compactSplitThread线程池完成split,具体由SplitRequest的run方法负责,SplitRequest内部会创建一个SplitTransaction来完成split    
  9. }  

其中compactSplitThread.requestSplit(region, region.checkSplit())中region.checkSplit()会计算该region的分裂点,看代码

  1. public byte[] checkSplit() {  
  2.   // Can't split ROOT/META  
  3.   //默认使用IncreasingToUpperBoundRegionSplitPolicy的分裂检查实现,有两种情况需要分裂:  
  4.   //        1.splitRequest=true  
  5.   //        2.check到该region下有store大于阀值,这个阀值和hbase.hregion.max.filesize和该region所在的RegionServer上和该Region属于同一表的region个数有关,具体见 getSizeToCheck方法。注意,如果该region下存在一个storefile是reference类型的文件则不能split  
  6.   if (!splitPolicy.shouldSplit()) {
  7.     return null;  
  8.   }  
  9.     
  10.   //判定该region是否分裂,如果有reference的storefile则不分裂,否则使用StoreFile.Reader得到最大的storefile,通过HFileBlockIndex得到该最大storefile的midkey   TODO midkey的获得还需深入细看 
  11.   byte[] ret = splitPolicy.getSplitPoint();  
  12.   
  13.   return ret;  
  14. }   

2.接下来接着看SplitRequest的run方法主要部分

  1. SplitTransaction st = new SplitTransaction(parent, midKey);  
  2. if (!st.prepare()) return;  //再次判断有没有reference的region,创建两个新的region对象,代表分裂后产生的两个dautghter region  
  3. st.execute(this.server, this.server);

下面分析下SplitRequest的execute做了什么

  1. public PairOfSameType<HRegion> execute(final Server server,    
  2.     final RegionServerServices services)    
  3. throws IOException {    
  4.   PairOfSameType<HRegion> regions = createDaughters(server, services);//在zk上创建一个ephemeral node,以防regionserver在分裂过程中down掉,Zookeeper临时路径是/hbase/region-in-transition/regionEncodedName,在parent region的hdfs下创建.splits文件夹,关闭当前待分裂region  
  5.   openDaughters(server, services, regions.getFirst(), regions.getSecond());    
  6.   transitionZKNode(server, services, regions.getFirst(), regions.getSecond());    
  7.   return regions;    

先分析 createDaughters

  1. PairOfSameType<HRegion> createDaughters(final Server server,    
  2.       final RegionServerServices services) throws IOException {    
  3.    this.fileSplitTimeout = testing ? this.fileSplitTimeout :  
  4.       server.getConfiguration().getLong("hbase.regionserver.fileSplitTimeout",  
  5.           this.fileSplitTimeout);//split超时时间,默认30s  
  6.    if (server != null && server.getZooKeeper() != null) {  
  7.       try {  
  8.         createNodeSplitting(server.getZooKeeper(),  
  9.           this.parent.getRegionInfo(), server.getServerName());//在zk创建一个临时的节点,保存split状态为RS_ZK_REGION_SPLITTING,表示开始region分裂  
  10.       } catch (KeeperException e) {  
  11.         throw new IOException("Failed creating SPLITTING znode on " +  
  12.           this.parent.getRegionNameAsString(), e);  
  13.       }  
  14.    }  
  15.     createSplitDir(this.parent.getFilesystem(), this.splitdir);  //在hdfs上为这个region的split过程创建临时工作目录/hbase/tableName/regionEncodedName/.splits  
  16.     this.journal.add(JournalEntry.CREATE_SPLIT_DIR);    
  17.      
  18.     List<StoreFile> hstoreFilesToSplit = null;    
  19.     Exception exceptionToThrow = null;    
  20.     try{    
  21.       hstoreFilesToSplit = this.parent.close(false);  //关闭当前region,关闭前会等待region的flush和compact都完成(通过writestate同步实现),还会判断memstore的size小于5m(默认)时,会preFlush,然后关闭该region,region停止读写  
  22.     } catch (Exception e) {    
  23.       exceptionToThrow = e;    
  24.     }    
  25.      
  26.     if (!testing) {    
  27.       services.removeFromOnlineRegions(this.parent.getRegionInfo().getEncodedName());  //从regionserver的online服务中移除  
  28.     }    
  29.     this.journal.add(JournalEntry.OFFLINED_PARENT);    
  30.     
  31.     splitStoreFiles(this.splitdir, hstoreFilesToSplit);//通过创建与该region下storefile个数相同的线程池子进行并行分裂,见StoreFileSplitter的splitStoreFile方法,其核心走StoreFile.split方法  
  32.     
  33.     this.journal.add(JournalEntry.STARTED_REGION_A_CREATION);    
  34.     HRegion a = createDaughterRegion(this.hri_a, this.parent.rsServices); //region读写数为父region的一半  
  35.     this.journal.add(JournalEntry.STARTED_REGION_B_CREATION);    
  36.     HRegion b = createDaughterRegion(this.hri_b, this.parent.rsServices);    
  37.     
  38.     if (!testing) {  
  39.     //在.META.表中下线split的region,修改.META.表的该region信息,把offline split设置为true,添加列:splitA和splitB  
  40.         MetaEditor.offlineParentInMeta(server.getCatalogTracker(), this.parent.getRegionInfo(), a.getRegionInfo(), b.getRegionInfo());  
  41.     }  
  42. }  

StoreFilesplit方法

  1. static Path split(final FileSystem fs,   final Path splitDir,   final StoreFile f,  final byte [] splitRow, final Reference.Range range)    
  2.     throws IOException {    
  3.        
  4.   // 检查split的key是否在storefile中  
  5.   if (range == Reference.Range.bottom) {    
  6.     //check if smaller than first key    
  7.     KeyValue splitKey = KeyValue.createLastOnRow(splitRow);    
  8.     byte[] firstKey = f.createReader().getFirstKey();    
  9.     // If firstKey is null means storefile is empty.    
  10.     if (firstKey == nullreturn null;    
  11.     if (f.getReader().getComparator().compare(splitKey.getBuffer(),     
  12.         splitKey.getKeyOffset(), splitKey.getKeyLength(),     
  13.         firstKey, 0, firstKey.length) < 0) {    
  14.       return null;    
  15.     }          
  16.   }    
  17.   else {    
  18.     //check if larger than last key.    
  19.     KeyValue splitKey = KeyValue.createFirstOnRow(splitRow);    
  20.     byte[] lastKey = f.createReader().getLastKey();          
  21.     // If lastKey is null means storefile is empty.    
  22.     if (lastKey == nullreturn null;    
  23.     if (f.getReader().getComparator().compare(splitKey.getBuffer(),     
  24.         splitKey.getKeyOffset(), splitKey.getKeyLength(),     
  25.         lastKey, 0, lastKey.length) > 0) {    
  26.       return null;    
  27.     }    
  28.   }   
  29.   
  30.   /*生成类型为reference的storefile文件,比如encode name为a,column family为cf(该cf下有名为hfile的storefile)的region分裂后会形成名为b和c的引用文件,此时在hdfs中该region下的目录结构为 
  31. /hbase/tableName/a/cf/hfile 
  32. /hbase/tableName/b/.splits/cf/hfile.a 
  33. /hbase/tableName/c/.splits/cf/hfile.a 
  34. 这两个引用文件的storefile的内容由原storefile的中间rowkey和range组成,reference文件的个数与原split region的storefile文件个数相同 
  35. */  
  36.   Reference r = new Reference(splitRow, range);    
  37.   String parentRegionName = f.getPath().getParent().getParent().getName();    
  38.   Path p = new Path(splitDir, f.getPath().getName() + "." + parentRegionName);    
  39.   return r.write(fs, p);    
  40. }   
 

再来看一下openDaughters

  1. void openDaughters(final Server server,    
  2.       final RegionServerServices services, HRegion a, HRegion b)    
  3.       throws IOException {    
  4.        
  5.       //并行打开两个daughters  
  6.       DaughterOpener aOpener = new DaughterOpener(server, a);    
  7.       DaughterOpener bOpener = new DaughterOpener(server, b);    
  8.       aOpener.start();    
  9.       bOpener.start();    
  10.       
  11.       if (services != null) {    
  12.         try {    
  13.           services.postOpenDeployTasks(b, server.getCatalogTracker(), true); // compact有references的storefile,compact操作最终清理掉这些reference文件,并把实际文件的内容写到region中去。将regioninfo信息和location的位置信息put到.META.表中  
  14.           services.addToOnlineRegions(b);  //添加region对象到regionserver的online列表中,终于可以对外提供服务了  
  15.           services.postOpenDeployTasks(a, server.getCatalogTracker(), true);    
  16.           services.addToOnlineRegions(a);    
  17.         } catch (KeeperException ke) {    
  18.           throw new IOException(ke);    
  19.         }    
  20.       }    
  21.   }   

最后梳理下整个流程:

检查该region是否需要分裂,如果满足分裂条件,则通过region.checkSplit()拿到midkey,并把该分裂请求SplitRequest提交给后台的CompactSplitThread线程池去执行,SplitRequest内部会创建SplitTransaction来实现分裂,其过程如下:

* 根据该region和midkey创建两个新的region对象HRegionInfo,代表分裂后的两个dautghter region  

在zk上创建一个临时节点(名称为“/hbase/region-in-transition/region-name”的znode),以防regionserver在分裂过程中down掉,保存split状态为RS_ZK_REGION_SPLITTING,表示开始region分裂。同时因为master一直watch znode(/hbase/region-in-transition),所以master会知道这个region的变化,以防master对其进行move等操作

* 在该region所在的hdfs路径下创建.splits文件夹

关闭该region,关闭前会等待region的flush和compact都完成(通过writestate同步实现),还会判断如果memstore的size小于5m(默认)时,会preFlush,然后关闭该region,region停止读写,并从regionserver的online服务中移除

通过创建与该region下storefile个数相同的线程池子进行storefile的并行分裂,见StoreFileSplitter的splitStoreFile方法,其核心走StoreFile.split方法,其生成类型为reference的storefile文件,比如encode name为a,column family为cf(该cf下有名为hfile的storefile)的region分裂后会形成名为b和c的引用文件,此时在hdfs中该region下的目录结构为 

/hbase/tableName/a/cf/hfile 
/hbase/tableName/b/.splits/cf/hfile.a 
/hbase/tableName/c/.splits/cf/hfile.a 
这两个引用文件的storefile的内容由原storefile的中间rowkey和range组成,reference文件的个数与原split region的storefile文件个数相同 


在.META.表中下线split的region,修改.META.表的该region信息,把offline split设置为true,添加列:splitA和splitB  

*  并行打开两个daughters region,CompactSplitThread后台线程会compact有references的storefile,compact操作最终清理掉这些reference文件,把实际文件的内容写到daughters region中去。并将daughter region的regioninfo信息和location的位置信息put到.META.表中

 * 添加region对象到regionserver的online列表中,终于可以对外提供服务了


转载请注明出处:http://blog.csdn.net/odailidong/article/details/42217439

参考文章:

http://blog.csdn.net/c77_cn/article/details/38758545

http://www.cnblogs.com/foxmailed/p/3970050.html

          

          

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
存储 分布式计算 Hadoop
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
Hadoop-33 HBase 初识简介 项目简介 整体架构 HMaster HRegionServer Region
56 2
|
存储 分布式计算 监控
分布式数据库HBase的基本概念和架构之基本架构的Region Server
分布式数据库HBase是一个开源的分布式数据库系统,是Apache Hadoop生态系统的重要组成部分。
415 0
|
存储 大数据 Java
深入解读HBase2.0新功能之高可用读Region Replica
基于时间线一致的高可用读(Timeline-consistent High Available Reads),又称Region replica,为HBase带来了高可用读的能力。本文主要介绍region replica这个功能设计的背景,技术细节和使用方法,同时会仔细分析这个功能的优缺点并给出使用建议。
9148 0
|
Web App开发 监控 前端开发
HBase工具之监控Region的可用和读写延时状况
1、介绍HBase集群上region数目由于业务驱动而越来越多,由于服务器本身,网络以及hbase内部的一些不确定性bug等因素使得这些region可能面临着不可用或响应延时情况。
1273 0
|
分布式数据库 Hbase
技术篇-深入解读 HBase2.0 新功能之高可用读 Region Replica
1.前言 基于时间线一致的高可用读(Timeline-consistent High Available Reads),又称 Region replica。其实早在 HBase-1.2 版本的时候,这个功能就已经开发完毕了, 但是还是不太稳定,离生产可用级别还有一段距离,后来社区又陆陆续续修复了 一些 bug,比如说 HBASE-18223。
4661 0
|
存储 Shell 分布式数据库
|
分布式数据库 Hbase 负载均衡
HBase Region合并分析
1.概述 HBase中表的基本单位是Region,日常在调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region,今天笔者就来和大家分享一下Region合并的一些问题和解决方法。
3133 0