一篇文章搞懂 HBase 的 region 拆分机制

阅读量：4073 次

发布时间：2019-05-25

本文共 1627 字，大约阅读时间需要 5 分钟。

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和参考文献请见

正文

region 中存储的是大量的 rowkey 数据，当 region 中的数据条数过多的时候，直接影响查询效率。

当 region 过大的时候，hbase 会拆分 region ，这也是 hbase 的一个优点 .

HBase 的 region split 策略一共有以下几种

1、ConstantSizeRegionSplitPolicy

0.94版本前默认切分策略

当region大小大于某个阈值(hbase.hregion.max.filesize=10G)之后就会触发切分，一个region等分为2个region。但是在生产线上这种切分策略却有相当大的弊端：切分策略对于大表和小表没有明显的区分。阈值(hbase.hregion.max.filesize)设置较大对大表比较友好，但是小表就有可能不会触发分裂，极端情况下可能就1个，这对业务来说并不是什么好事。如果设置较小则对小表友好，但一个大表就会在整个集群产生大量的region，这对于集群的管理、资源使用、failover来说都不是一件好事。

2、IncreasingToUpperBoundRegionSplitPolicy

0.94版本~2.0版本默认切分策略

切分策略稍微有点复杂，总体看和ConstantSizeRegionSplitPolicy思路相同，一个region大小大于设置阈值就会触发切分。但是这个阈值并不像ConstantSizeRegionSplitPolicy是一个固定的值，而是会在一定条件下不断调整，调整规则和region所属表在当前regionserver上的region个数有关系.region split的计算公式是：regioncount^3 * 128M * 2，当region达到该size的时候进行split例如：第一次split：1^3 * 256 = 256MB 第二次split：2^3 * 256 = 2048MB 第三次split：3^3 * 256 = 6912MB 第四次split：4^3 * 256 = 16384MB > 10GB，因此取较小的值10GB 后面每次split的size都是10GB了

3、SteppingSplitPolicy

2.0版本默认切分策略

这种切分策略的切分阈值又发生了变化，相比 IncreasingToUpperBoundRegionSplitPolicy 简单了一些，依然和待分裂region所属表在当前regionserver上的region个数有关系，如果region个数等于1，切分阈值为flush size * 2，否则为MaxRegionFileSize。这种切分策略对于大集群中的大表、小表会比 IncreasingToUpperBoundRegionSplitPolicy 更加友好，小表不会再产生大量的小region，而是适可而止。

4、KeyPrefixRegionSplitPolicy

根据rowKey的前缀对数据进行分组，这里是指定rowKey的前多少位作为前缀，比如rowKey都是16位的，指定前5位是前缀，那么前5位相同的rowKey在进行region split的时候会分到相同的region中。

5、DelimitedKeyPrefixRegionSplitPolicy

保证相同前缀的数据在同一个region中，例如rowKey的格式为：userid_eventtype_eventid，指定的delimiter为 _ ，则split的的时候会确保userid相同的数据在同一个region中。

6、DisabledRegionSplitPolicy

不启用自动拆分，需要指定手动拆分

转载地址：http://fkgji.baihongyu.com/

你可能感兴趣的文章

分布式缓存负载均衡负载均衡的缓存处理：虚拟节点对一致性hash的改进

Windows CE下USB摄像头驱动开发(以OV511为例，附带全部源代码以及讲解) [转]

查看>>

出现（ linker command failed with exit code 1）错误总结