PebblesDB读后感

简介:         SOSP2017[1]于10月底在上海举办,因为离得比较近,笔者也去参加学习了一下。会议上的大部分文章都相当的务实,有的甚至可以直接辅助工程实践,比如将要分享的PebblesDB[2]。         10年前Google发表BigTable[3]的论文,推动了基于LSM的KV系统架构的流行,而随着

        SOSP2017[1]于10月底在上海举办,因为离得比较近,笔者也去参加学习了一下。会议上的大部分文章都相当的务实,有的甚至可以直接辅助工程实践,比如将要分享的PebblesDB[2]。

        10年前Google发表BigTable[3]的论文,推动了基于LSM的KV系统架构的流行,而随着KV系统的应用面超越NoSQL数据库走向越来越广阔的领域,LSM的写放大问题也越来越成为系统稳定的一个阻碍。在LevelDB/RocksDB这种分层思路上,PebblesDB提出了一种减少写放大的思路,下面学习并总结,所述以论文为基础,也有个人观点,客观论述请看原文。

        虽然LSM的写放大最近被研究很多,但是就写放大本身而言,是一个很古老的问题。在计算机体系中,如果相邻两层的处理单元不一致或者应用对一致性等有特殊的需求,就很可能出现写放大问题。比如CPU cache和内存cell,文件系统block和磁盘扇区,数据库block和文件系统block,数据库redo/undo,文件系统journal等。文中对写放大给了一个明确的定义,就是用户写入数据和系统写入数据的反比,比如用户写了1M,系统在稳定之后一共向存储设备写出10M,那么放大系数就是10。一些熟知的系统,其放大系数可能超越我们的想象,见下图1(如无特殊说明,图片均来自论文[2])

图1 几款流行KV的放大系数对比

        RocksDB放大系数高达42倍,LevelDB也高达27倍,不看绝对数字,只看趋势的话,还是符合直觉的,毕竟RocksDB做了不少加速compaction的功能优化。本文的PebblesDB做的不错,但是仍然超过了10。写放大意味着更多的读写,会造成系统波动,对比如SSD来说会加速寿命衰减,从成本角度说也更加耗电,所以解决写放大就成了一个很重要的问题。我们看这张图的时候,理解放大很严重就可以了,具体数字不必计较,现实中当然有很多针对具体业务的办法把放大控制在一定范围。

        作者分析了LevelDB/RocksDB使用的分层结构,认为有一个关键问题导致了其写放大很严重,即L0层数据可能跟Lx层全range交叠。图2很好的说明了这个问题。

图2 解释传统分层模型写放大的原因

        图2显示,L0文件里面包含的key同时在L1层的多个文件(甚至全部文件)被包含,所以如果想把L0下推到L1,那么就需要将整个L0/L1文件内的key读出来重新排序写入到L1。典型情况下,L0数据量是L1的1/10,为了这么点数据量重写所有数据显然不划算。L1...Ln道理类似。

        思考问题的本质有助于判断终极解决方案,放大问题的本质是一个系统对“随时全局有序"的需求有多么的强烈。所谓随时,就是任何的写入都不能导致系统无序;所谓全局,即系统内任意元单位之间都要保持有序。B-Tree系列是随时全局有序的典型代表,而Fractal tree打破了全局的约束,允许局部无序,提升了随机写能力;LSM系列进一步打破了随时的约束,允许通过后台的compaction来整理排序。在LSM这种依靠后台整理来保序的系统里面,系统对序的要求越强烈,写放大越严重。

        PebblesDB针对写放大提出的解决方案是弱化全局有序的约束,其将每一层进行分段,每个段称为一个guard,guard之间没有重叠的key,且每层的guard之间要求保序,但是guard内部可以无序。这个跟skiplist的思路非常像,所以作者说是从skip list借鉴了思想,见图3。

图3 PebblesDB 关键思路

        图3看起来确实很像一个skiplist,guard如果在上一层存在,那么下面所有层都存在;同层相邻guard之间无交叠(L0数据少,没有guard)。如前面分析,分层组织结构导致写放大的原因是Li在下推数据的时候跟整个Li+1是重叠的,所以导致所有Li和Li+1的数据都要重写,这显然增加了写放大。而这里将Li和Li+1分为多个guard,那么当Li层数据需要下推的时候,不再是整个Li一起下推,而是可以按照guard为单位来进行,那些基本没有数据变化的guard就不用下推了。在guard下推的过程中,另外一个属性进一步减少了写放大,那就是guard内文件之间不必有序,这样有些文件可能不需要读取,直接move过去就可以了。很奇妙!结果当然也不错,显著减少了写放大,见图4。

图4 PebblesDB 基于guard的思路减少写放大

        图4显示,在三个级别的数据规模上,PebblesDB都获得了较低的放大系数,典型对比甚至降低一倍以上。文中还有非常多方面的对比,学术论文的考虑周全、测试严谨是非常值得学习的。

        通读全文来看,该思路减少写放大还是比较容易理解的,因为削弱了全局序。当然代价就是scan的时候变差了,因为scan天生对序有强烈的依赖,作者提到可以通过提高IO并发等缓解scan性能的下降。文字还提到了guard带来的其他好处,比如compaction的并行度变大了,每个guard所代表的相邻层可以独立进行compaction以及guard的选择、空guard的处理问题。

 

[1]. SOSP2017: https://www.sigops.org/sosp/sosp17/program.html

[2]. PebblesDB: Building Key-Value Stores using Fragmented Log-Structured Merge Trees 

[3]. BigTable: http://research.google.com/archive/bigtable-osdi06.pdf

[4]. LevelDB: https://github.com/google/leveldb

[5]. RocksDB: https://github.com/facebook/rocksdb/

相关文章
|
8月前
|
机器学习/深度学习 存储 算法
献给阿尔吉侬的花束
献给阿尔吉侬的花束
73 0
|
定位技术
1256:献给阿尔吉侬的花束 2021-01-09
1256:献给阿尔吉侬的花束 2021-01-09
103 0
|
存储 人工智能 弹性计算
600天,我们在沙漠筑“城堡”
600天,我们在沙漠筑“城堡”
125 0
回首2022,烟火如常,布衣剩饭,啥也没干,年终总结,蹈海难酬
开篇明义,2022年,我啥也没干,或者说的更准确一些,啥也没干成,没有什么值得拿出来凡尔赛一下的事情,或者可以满足一下虚荣心的成就,300多个日夜里,就是日复一日的起床、上班、讲课、下班、吃饭、睡觉。有什么可总结的呢?
回首2022,烟火如常,布衣剩饭,啥也没干,年终总结,蹈海难酬
人生道路,道阻且长,勇敢过好当下的生活
人生道路,道阻且长,勇敢过好当下的生活,努力让自己的选择正确,万维网利益链全媒体文化洗你脑没商量,网络公司全媒体工作就是这样编辑信息资源发布,利益链全球化经济懂得,分析正能量=什么是玄理论宇宙基因不知道的演化,政治经济割据历史无奈,总要有人去过滚烫的人生,年报乱象又是几年下来,所以把我们公司、个人银行账户封卷了,造假!什么都会造假,公知会收敛?顺应新媒体民族共同体理念体系,把利益链平衡l基因变异演化与技术和金融之间最不引人注目的中断可能最终成为最具革命性的中断来研究生存。https://mp.weixin.qq.com/s/28L5xhpBcJ4yVi9AuyGvjg
178 0
|
数据可视化 数据安全/隐私保护
阿里云使用读后感
阿里云使用之后的感受
《未来简史》读后感
 似乎最近很少开始写读书笔记了,事实上一直在坚持着阅读习惯,只是有些书特别是脑洞大开的书或是描述历史长河中很小一段的书较难写读书笔记。  最近迷上了春秋的历史,网上买了一套贾志刚说春秋全套(一共7本书),现在刚看完第二本,粗浅的了解了一些历史人物类似于齐桓公、秦穆公、晋文公(公子重耳),也了解一些成语的出处类似于黄泉相见等,当然那个时代最牛逼的就是乱伦,老子可以抢儿子的媳妇,儿子可以继承老爹的妃子,注入此类,很多按照现在的价值观是比较难理解的,看着跟唱戏一样。
1209 0
一碗鸡汤
一、要成为自己的专家 1、找到自己的独特性——《发现自己的优势2.0》 2、弄清楚让我们做出决定的根本原因(是为了亲人、朋友还是为了成就感) 3、经验(定期反省自己什么做对了,什么做错了,有没有更对的经验可循)   人做不成事有两个原因:第一,他对自己说他不行;第二,别人说他不行。
910 0
《你不知道的自己》读后感
 在上上周看完了曾奇蜂老师的《你不知道的自己》这本书(豆瓣评分8.1分),已经不记得从哪里看到这本书,或许是杭州图书馆公众号推荐的吧,这个公众号经常推荐一些比较新的书,有兴趣的可以订阅一下。
1319 0
《非洲归来 不必远方》读后感
 已经记不得从哪里看到这本书了,之所以会买这本书是被这本书中描写黑人肤色的段子给吸引了,想必大家应该都质疑过“非洲人真的黑到天黑人不见吗”的问题,如果你想解开心中的疑惑,那么推荐你买这本书,因为作者的文字的确非常幽默,阅读起来非常轻松,还记得我提过的《反脆弱》这本书么,如果从阅读的喜感来说简直一个是天一个是地,到底哪个是天哪个是地我想不用说大家也会明白。
1270 0