云HBase内核解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: 摘要:在2018年1月25号数据库直播大讲堂上云HBase技术团队郭泽晖带来“云HBase内核”演讲,比如先讲对HBase做了简介,接着云HBase内核解析,并重点介绍了GC优化和更适合随机读的编码格式,分享了两个实战优化案例,还对云HBase 2.0进行了展望。

摘要:在2018年1月25号数据库直播大讲堂上云HBase技术团队郭泽晖带来“云HBase内核”演讲,比如先讲对HBase做了简介,接着云HBase内核解析,并重点介绍了GC优化和更适合随机读的编码格式,分享了两个实战优化案例,还对云HBase 2.0进行了展望。

直播视频:https://yq.aliyun.com/video/play/1333
PPT下载:https://yq.aliyun.com/download/2461
以下为精彩视频内容整理:

1. HBase简介

HBase是提供强一致、面向列的结构化键值存储。它使用普通的磁盘,并且支持多种压缩算法,成本相对较低。而且它本身支持横向扩展,满足千万级QPS的需求。其分布式的存储、可以轻松满足从GB到PB的需求。依托Hadoop生态圈,拥有许多分析工具:Phoenix(二级索引),Spark(机器学习的分析),MapReduce等。

2. 云HBase内核解析

2.1 GC优化

1


云HBase是基于开源1.1版本发展而来,与阿里内部使用的版本相同,且其经历了双十一严格检验,性能领先开源版本,尤其是在读写方面。
HBase一直以来的存在GC问题。虽然Java简化了编程,提供了内存对象,同时也带来了GC问题,还有延迟问题,但是数据库对延迟高度敏感的。大内存Full GC影响RegionServer服务。情况好时,GC一分钟会或恢复,情况坏时会直接崩溃。针对GC问题,社区已经进行了优化:BucketCache, MemStoreChunkPool。

2


其中MemStoreChunkPool是一个写缓存,当数据写到region里面之后,每个region里面都会有若干个MemStore。当通过客户端把数据写入到region里面时,会先在MemStore写一份。以后在查询的时候,直接从文件中读取,而是先在MemStore读取,这也是HBase保持强一致性的地方。当条件满足的时候,MemStore的数据才会异步写入到磁盘,形成HFile。这就是数据在MemStore的生命周期。
云HBase基于社区已有的BucketCache、 MemStoreChunkPool做了细节的优化,使得云HBase内核优化后:YGC延迟降低50%~70%,吞吐提升20%~30%,几乎不会发生Full GC问题。
MemStoreChunkPool利用了ChunkPool。ChunkPool本质上管理着非常多的Chunk,每个Chunk为2M左右的连续内存。如果不使用ChunkPool,由于数据的本身不规则的,当数据从堆上释放的时候,会产生很多碎片。为了消除这些碎片,写入数据的时候,会申请一个Chunk,数据会写在Chunk,让Chunk来管理这些不规则的数据。MemStoreChunkPool是在ChunkPool上面提出来的,因为在写比较快的时候,会生成很多的Chunk,会给GC造成压力。MemStoreChunkPool在内存中保留一些不释放的Chunk。

3


原生的MemStore是用跳跃链表来维护的,其插入复杂度为 O(logn)、查询复杂度为 O(logn)。是基于ConcurrentSkipListMap来实现key-value的维护。选择跳跃链表而不是其他树结构(其复杂度也是O(logn)),是因为从代码上看跳跃链的常数更低,不做插入后做节点的调整和旋转,实际的时间复杂度比其他数据结构要低。

4


但是基于ConcurrentSkipListMap的MemStore也存在一些问题:数据会在内存中存在一些时间,之前插入的节点会变为年老代,年轻代节点与年老代节点之间存在引用关系,这个引用关系会导致在最年轻代GC的时候,需要扫描年老代。这对年轻代的YGC来说并不友好。而且对象本身占用内存空间以及空间申请过程,都非常零碎。当对象多的时候会产生很多的碎片,当内存过大对内存的开销也非常大。当数据规模不断增大和不断插对象,就会不断产生新索引,要维护的SkipList索引对象就越多,索引数量近O(2n)。

2.2高度聚合的memstore

5
6


云HBase的MemStore是索引对象和数据内存空间高度聚合,使得CPU缓存效率高,无碎片对GC友好,可以避免Full GC。云HBase比之前的MemStore节约内存近40%,吞吐提升20%~30%,YGC时间减少70%以上。
云HBase的MemStore是基于数组来实现SkipList。每次申请连续的Chunk内存(即1个Chunk默认2M)。云HBase会管理Chunk,本质是字节数组。因为使用JDK的SkipList会产生很多的index对象,这些对象会有对象头的开销,而数组本身是只有一个对象,会大大减少对象的数量,并且将索引和数据是放在连续的Chunk里面,其数据紧凑程度会比JDK的SkipList使用率高,测试的吞吐也比较好

7


上面是跳跃链表的结构, 其Chunk是连续的。Chunk上面存储着节点信息,指针的信息,key-value的信息、level的信息,这些信息最后相互关联起来,形成了跳跃链表。在实现的时候,为了降低内存和减少GC,一些信息被压缩在若干个bit内,比如Level信息被压缩在5个bit内,存放于header中。其中每个Node内存结构都是相同的,第一个是Header,占用8个字节的数组长度,NextOffet是解析后一个具体的位置,指向下一个Chunk。
跳跃链表使用的链表,其中链表一般有两种选择,arealist和linklist,这取决于元素的数量,如果元素的数量比较大,也知道数量范围,这时候,选择arealist。原理根SkipList一样,Arealist底层只有一个数组,linklist则会产生非常多的节点,这对内存是很大的开销。

8


bucket cache是一个读缓存,它跟前面的MemStoreChunkPool非常类似。它先申请bucket(默认为2M),当把Block从文件中读出来的时候,会选择一个合适的bucket进行存放,每个bucket有一个size的标签,决定它能放多大的Block。之前的bucket cache存在一个问题,当有多个线程和有多个用户,访问一个数据块的时候,会把Block从 bucket cache拷贝到栈上面。这样会带来额外的拷贝开销,释放内存的时候,会带来GC的问题。为了解决这个问题,参考C++的智能指针的实现,基于引用计数实现Block的智能指针,实现Block管理。使用bucket cache之后,会减少一半的YGC时间。这也是线上不会出现full GC的重要原因。

2.3更适合随机读的编码格式

9


HFile层面数据查询定位过程:根据索引记录nextoffset,通过二分索引可以定位某行某列数据在哪个DataBlock中。seek后读取DataBlock,并对DataBlock进行解码,从头扫描Block获取指KeyValue数据。扫描过程中不断解码。一般使用DataBlock编码格式DIFF来节约空间。

10


使用DIFF编码的好处是:利用和前一个KeyValue公共前缀压缩空间,利用压缩int节约空间。根据不同场景可以节约2-5倍空间。但是DIFF也存在一些问题:(1)DataBlock需要顺序,不断解码才能找到KeyValue。因为DIFF是利用DataBlock的前一个key-value,公共前缀去压缩空间,也就意味着,如果要在DataBlock查找一个key-value,必须要不断地从头开始扫描。(2)从头开始顺序扫Block会成为随机读瓶颈。

11


云HBase Indexable Delta编码是基于DIFF编码做出了改进:隔一段距离设置完整的key-value。通过offset信息在完整key-value中二分。从最近的完整key-value开始解码。这样会跳过大量的数据,读延迟减少10%-15%,存储开销仅增加3%-5%。

3. 客户实战优化案例分享

3.1读写分离降延迟
客户为杭州某公司,其嫌99.9%延迟太高,业务不能接受。通过了解发现,客户会定期持续导入数据,对读延迟要求99.9%的延迟要在40ms内。监控显示99.9%延迟很稳定,与客户业务上监控到的99.9%延迟差距较大,且发现请求有排队现象,考虑写入请求阻塞了读请求。
定时的写请求,影响了服务质量。所以建议用户调整一下读写分离。在用户侧业务监控99.9%延迟,发现调整后将时间从90ms降到了40ms,提高了一倍以上。
3.2压缩&编码降低存储成本

12


客户Soul公司嫌存储成本过高。通过分析发现用户的所有表都没有开启压缩,用的是无编码模式。通过建议用户使用SNAPPY压缩和DIFF编码后(使用DIFF会节省3-5倍的空间)。这两个组合起来编码之后,空间降为原来的1/7,大大节省了使用成本。

4. 云HBase 2.0展望

13


HBase 2.0提供更稳定更快的分布式数据库服务,对稳定性做了很大的改善,这对云上的场景来说比较重要。因为云上的用户对自动化要求很高,如果代码有1%的问题,那么每100个用户里面就需要处理一个用户的问题,随着客户的增加,那么就会应对不过来。原来的RIT经常会卡住,只能重启才能解决问题,主要因为是region的状态是没有统一管理,比较复杂。HBase 2.0是在master上面管理region,解决了RIT问题。
HBase 2.0只有一个region,这样如果维护region的那台region server挂掉之后,会有一段时间是不可服务。现在提供了region副本,如果一个region挂了,可以从备份中去读。通过牺牲一些可读性,来换取强一致性。
如果对可靠性要求比较高,比如99.99%,那么可以在HBase 2.0上面开启这样的功能,但是这样要耗费更多的资源,因为region会有很多,而且同一个region有多个副本,这样region的数量会非常大。
in memory compaction这个功能是减少写放大,这个功能是在内存中先压缩一部分,避免了把文件从HBase上面拉出来,再压缩,再写回去的过程。

本文由云栖志愿小组王朝阳整理,百见编辑。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
存储 物联网 调度
操作系统的心脏:内核深度解析
在数字世界的构建中,操作系统扮演着基石的角色,而其核心—内核,则是这一复杂系统的灵魂。本文将深入探讨操作系统内核的工作原理,揭示它是如何管理硬件资源、运行程序以及提供系统服务的。通过理解内核的结构和功能,我们可以更好地把握计算机系统的运作机制,进而优化和创新我们的技术实践。
|
1月前
|
存储 Linux API
深入探索Android系统架构:从内核到应用层的全面解析
本文旨在为读者提供一份详尽的Android系统架构分析,从底层的Linux内核到顶层的应用程序框架。我们将探讨Android系统的模块化设计、各层之间的交互机制以及它们如何共同协作以支持丰富多样的应用生态。通过本篇文章,开发者和爱好者可以更深入理解Android平台的工作原理,从而优化开发流程和提升应用性能。
|
2月前
|
缓存 并行计算 Linux
深入解析Linux操作系统的内核优化策略
本文旨在探讨Linux操作系统内核的优化策略,包括内核参数调整、内存管理、CPU调度以及文件系统性能提升等方面。通过对这些关键领域的分析,我们可以理解如何有效地提高Linux系统的性能和稳定性,从而为用户提供更加流畅和高效的计算体验。
54 2
|
2月前
|
存储 人工智能 安全
操作系统的心脏——内核深度解析
【10月更文挑战第29天】 本文深入探讨了操作系统的核心组件——内核,包括其定义、功能、架构以及在现代计算中的重要性。通过对比不同操作系统内核的设计哲学和技术实现,揭示了内核如何影响系统性能、稳定性和安全性。此外,文章还讨论了未来内核技术的潜在发展方向,为读者提供了一个全面了解内核工作原理的平台。
|
2月前
|
存储 消息中间件 算法
深入探索操作系统的心脏——内核机制解析
本文旨在揭示操作系统核心——内核的工作原理,通过剖析其关键组件与机制,为读者提供一个清晰的内核结构图景。不同于常规摘要的概述性内容,本文摘要将直接聚焦于内核的核心概念、主要功能以及其在系统管理中扮演的角色,旨在激发读者对操作系统深层次运作原理的兴趣与理解。
|
2月前
|
算法 Linux 定位技术
Linux内核中的进程调度算法解析####
【10月更文挑战第29天】 本文深入剖析了Linux操作系统的心脏——内核中至关重要的组成部分之一,即进程调度机制。不同于传统的摘要概述,我们将通过一段引人入胜的故事线来揭开进程调度算法的神秘面纱,展现其背后的精妙设计与复杂逻辑,让读者仿佛跟随一位虚拟的“进程侦探”,一步步探索Linux如何高效、公平地管理众多进程,确保系统资源的最优分配与利用。 ####
83 4
|
2月前
|
缓存 负载均衡 算法
Linux内核中的进程调度算法解析####
本文深入探讨了Linux操作系统核心组件之一——进程调度器,着重分析了其采用的CFS(完全公平调度器)算法。不同于传统摘要对研究背景、方法、结果和结论的概述,本文摘要将直接揭示CFS算法的核心优势及其在现代多核处理器环境下如何实现高效、公平的资源分配,同时简要提及该算法如何优化系统响应时间和吞吐量,为读者快速构建对Linux进程调度机制的认知框架。 ####
|
3月前
|
安全 中间件 人机交互
探索操作系统:从内核到用户界面的全面解析
本文旨在深入探讨操作系统的本质、核心组件及其功能。通过分析操作系统的各个层次,包括内核、驱动程序、中间件及用户界面,揭示其背后的技术原理和设计思想。此外,本文还将讨论操作系统在现代计算中的重要性及其未来发展趋势。
|
4月前
|
存储 算法 安全
操作系统的心脏:内核深入解析
本文将带您走进计算机的大脑—操作系统内核,探索它如何管理硬件资源、提供系统服务,并确保多任务高效运行。文章以浅显易懂的语言,逐步揭示内核的神秘面纱,从基础概念到实际应用,让您对操作系统的核心组件有更深的理解。
147 5
|
4月前
|
存储 资源调度 监控
操作系统的心脏:内核深度解析
在数字世界的庞大机器中,操作系统扮演着至关重要的角色。而作为操作系统核心的内核,其重要性不言而喻。本文将深入浅出地探讨操作系统内核的基本概念、主要功能和工作原理,以及它如何影响计算机的整体性能和稳定性。我们将从内核的设计哲学出发,逐步深入到内核的各个组成部分,包括进程管理、内存管理、文件系统和设备驱动等关键模块。最后,文章还将讨论当前操作系统内核面临的挑战和未来的发展趋势。通过这篇文章,读者将获得对操作系统内核更深层次的理解,从而更好地把握计算机系统的运行机制。
114 1

热门文章

最新文章

推荐镜像

更多