Hbase的优化小结

Hbase的优化总结

Hbase的优化小结

上面这张图不是一太清晰，我后面给个单独的连接

这里的HBase的优化主要从三个大的维度来进行分析

1、系统硬件

采用普通的PC Server即可，Master要求高一点(比如8 CPU，48G内存，SAS raid)，Regionserver(如8CPU，24G内存，1T*12 SATA JBOD)

对于存储regionserver节点采用JBOD，master采用sas raid1+0

数据的存储在hdfs中本身考虑到了冗余，一般情况下replication设置为3，所以不用做raid；需要考虑的是每个节点的可用的存储空间的大小，所以这里用磁盘簇的方式。

网卡千兆的，做网卡bond，并且管理网段和请求网段分开，对于大的混合集群来说，可以设计多个vlan。

2、客户端client

a、 scan cache：顺序读的场景中，比如mapreduce做计算，可以设置在regionserver中的一次缓存的数量，可以加快scan的进度，

不过考虑到regionserver的内存限制，需要注意regionserver并发线程的控制。

b、在插入数据时，最好用批量插入操作，效率会更高一些。

c、auto flush最好disable掉

对于client来说，有一个writebuffer的缓冲，buffer满了之后，自动的发送数据到regionserver端

可以在某个时间点，手动调用flush的操作进行flush数据

调用close操作，会隐含调用flush操作

3、regionserver

a、对于插入操作，不要集中在一个region中插入，需要考虑rowkey的设计(rowkey如果是顺序设计的，这样会集中插入到一个region中)，以及最好预先创建好split region

b、对于查询操作时，又分为两种情况，一种是顺序读，一种是随机读。

顺序读，最好rowkey是连续的设计的，这样可以从一个region中批量读数据；并且关闭block cache（客户端调用setBlockCache(false)）。

随机读，打开block cache（设置cache合理大小，hfile.block.cache.size）；采用booleam filter，提供随机查询的效率。

当然HFile块的大小设计很重要，随机读的情况下，可以设置小一点，顺序读的情况下，设计大一下。

c、对于compact&split操作，建议禁止major compact(hbase.hregion.majorcompaction设为0)，该为手动方式，每天不忙的时候进行。

设置单个region的合理的大小(hbase.hregion.max.filesize)，超过这个值，就自动进行split操作。

d、手动进行balancer操作

e、内存大小的相关考虑

1）对于region column family 的buffer，设置合理的checkpoint百分比，减少硬盘IO的操作；对buffer memstore设计合理大小，防止内存溢出。

主要有这三个参数，hbase.regionserver.global.memstore.upperLimit，hbase.regionserver.global.memstore.lowerLimit，memstore.flush .size

2）regionserver JVM参数设置

设置最大合理内存大小

垃圾回收策略，并发CMS的设置，比如-XX:CMSInitiatingOccupancyFraction=70，memstore limit 40%，block cache 20%，

防止promted fail（new区S区域放不下，放到旧生代，而旧生代空间不足），防止CMS的同时，对象迁移到旧生代，而旧生代空间不足。

为了避免CMS带来的碎片，可以考虑采用MSLAB

3） block cache，创建表时，设置该表对应的块是cache的，通过LRU算法淘汰；不过块中的数据索引dataIndex是放在内存中的。

f、HFile的设置

1）可以压缩存储，减少磁盘和网络IO，有GZIP、LZO、Snappy，一般采用LZO或者Snappy。

2）对于HFile中块的大小设置，可以根据顺序读和随机读的比重，来考虑（顺序读，块设置大，随机读，块设置小一点）

g、regionserver并发处理线程handler的的数量（payload大，建议handler数量小一些，反之，建议handler数量大一些）

h、可以把一些操作，放在regionserver端执行，避免来回数据交互（filter,coprocessor,count）

相关参数设置参考

client
Scan Caching（默认是1条，设置成20条）
Scan Attribute Selection
Close ResultScanners
AutoFlush（默认是true，设置成false）
Bloom Filter

regionserver
内存

JVM（CMS GC，24G heap，-XX:CMSInitiatingOccupancyFraction=70）
hbase.regionserver.global.memstore.upperLimit（默认0.4）
hbase.regionserver.global.memstore.lowerLimit（默认0.3）
hbase.hregion.memstore.flush.size（64M,如果region的数量不多，可以设置的大一些，假如有1000个region*200M）
hbase.hregion.memstore.block.multiplier（默认是2）
hfile.block.cache.size（默认是0.2，场景中是读多写少，建议开大一些，0.4）
hbase.hregion.memstore.mslab.enabled
文件大小
hbase.hregion.max.filesize（默认256M，实际环境中为1G，每天手动split,compact）
hbase.hstore.blockingStoreFiles（默认7），通常情况下，一个storeFile大概在200M的样子，当进行major compact时，会合并成一个
线程设置
hbase.regionserver.handler.count（默认是10，设置成100，和内存大小有关系）

Hbase的优化小结

热点推荐