针对存储排序文件过程中合并和压缩的算法LSM-Tree

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: LSM-Tree全称为Log-Structured Merge-Tree,日志结构合并树,它的架构分为内存部分和有序的磁盘部分,内存部分实现高速写,有序的磁盘部分实现高效查。

LSM-Tree简介

LSM-Tree的概念出自1996年的一篇论文,它提出了针对存储排序文件过程中合并和压缩的算法。之后基于该原则的存储引擎通常被称为LSM存储引擎。
如果持久型数据库存入数据时,需要随机写入磁盘,需要寻找对应的磁盘位置,包括寻找磁道、扇区,转动磁头。转动磁头这一机械过程相对于数据写入的其他过程(CPU的计算和磁头电流改变磁盘单元格的磁场)是非常缓慢的,这是高速I/O的瓶颈所在。
LSM-Tree的思想是:借助于内存和日志文件将写入过程分为时间上不前后相连的两步,写入是只顺序写入磁盘的日志文件和内存,等系统空闲时再将内存中数据写入到磁盘。这样在处理写入请求时就省去了磁盘寻道、转动磁头的时间。
我认为可以先记住LSM-Tree的以下几个特点,再去深入了解它:

image.png

LSM-Tree架构


LSM-Tree全称为Log-Structured Merge-Tree,日志结构合并树,下文简称LSMT。LSMT的架构分为内存部分和有序的磁盘部分,内存部分实现高速写,有序的硬盘实现高效查,整体架构如下图所示。

image.png

磁盘中有一个CommitLog文件,记录着所有对数据的变更操作,类似于MySQL中的BinLog,当执行变更操作时,会首先将该操作写入到CommitLog中。数据是存放在磁盘中的一个一个的SSTable中的,每个SSTable会配有一个索引表,索引表中的key是有序的,value为每个key对应的记录中SSTable中的偏移位置;同时每个SSTable会配有一个布隆过滤器,用来初步筛选数据是否在改SSTable中。


内存中存在一个MemTable,MemTable内部维护一个高效读写的有序的数据结构,可以是红黑树、AVL树或者跳表等。写入数据时主要写入MemTable,当MemTable大小达到阈值时,会全部写入到磁盘中形成一个SSTable。当进行写操作时,只要写CommitLog,再写完MemTable就会返回写成功。


 LSTM的查找


LSMT的查找分为两部,首先是查找内存,不中再查硬盘,具体步骤如下所示;

  1. 先查内存中的MemTable,如果命中则返回;
  2. 再查硬盘,先对每个SSTable对应的布隆过滤器进行过滤,如果判定为在该SSTable中,则查询该SSTable的索引表,索引表key有序,所以是二分查找。如果找到对应的key,则根据偏移值获取数据返回;如果未找到对应的key,则对下一个SSTable重复该过程。

image.png

 LSTM的写入


LSMT的写入包括对数据的增加、修改和删除。针对当前写请求的操作有两步:

  1. 先顺序写入磁盘的日志;
  2. 讲当前写请求的数据写入内存中的M嗯额Table;
  3. 回复当前写请求“写入成功”。

写请求回复之后的操作:

当MemTable到达阈值时,写入磁盘,形成一个SSTable;

当SSTable数量到达阈值时,进行合并。合并时采用归并方式,将两个有序的SSTable合并为一个,并生成一张新的有序的索引表。

image.png

名词
解释
落盘
当内存中的MemTable达到最大容量时,一次性写入硬盘,形成一个新SSTable
定期合并
当SSTable数量多时会降低查询性能;而且存储了很多修改和删除的信息。为了提高查询性能并节省磁盘空间,定期将所有的SSTable合并,剔除被删除和已被修改的数据。所有对数据的操作在commit log中都会被记录,因此可以通过commit log回滚。

image.png

  • LSMT的修改操作
    LSMT收到修改请求时,并不会真正去修改SSTable中的数据,而是将这个修改作为一条修改记录存上到MenTable中,当MemTable写入磁盘进行合并时,两条数据的key相同,合并时根据时间戳,新的数据将覆盖老的数据。
  • LSMT的删除操作
    LSMT的删除操作分为两种情况:要删除的数据在内存中,在磁盘中。
    LSMT收到删除请求时,首先会查看内存中是否存在该记录,如果存在则直接删除;如果不存在则会向内存中的有序数据结构中增加一个删除记录。并不会真正去删除SSTable中的数据,当MemTable写入磁盘进行合并时,两条数据的key相同,合并时根据时间戳,执行最终的删除操作。

 MemTable

LSMT的memTable维护一个有序数据结构,可以是红黑树或者跳表结构,插入时按照有序结构将数据插入到对应位置,插入后安装所选用的结构的平衡要求进行有序结构调整。

写入磁盘时,将此有序结构按序吐出数据写入到硬盘中。

 SSTable结构

索引表在我们操作系统非常常见,像文件管理和存储中都用到了索引表。类似于我们操作系统中的索引表,SSTable也用一张存储表记录了SSTable存储的每个元素的位置。引入索引表后,当从SSTable中取数据的时候,不用把整个SSTable读进内存了,而是只需要读进非常小的索引表即可,极大减少了IO成本。同时索引的key是有序的,所以查找时二分查找方式也非常快。

image.png

 布隆过滤器


为了进一步减少数据查询时的磁盘IO和提高查询速度,LSMT引入了布隆过滤器。上一小节中提到为了不把整个SSTable读入到内存中,引入了索引表,但是当SSTable数据量较大时,索引表也较大。因此引入布隆过滤器,将读入到内存的数据再减少一个数量级。
利用布隆过滤器,对所要查询的数据进行一个初步判读。每个SSTable都有个布隆过滤器,如果布隆过滤器判定为没有,则改SSTable中一定不存在改数据;如果布隆过滤器判定为有,则改数据很可能存在于该SSTable中,这是再将索引表加载进内存,进行进一步的查找确认。如果找到则返回;如果未找到,则再匹配下一个SSTable的布隆过滤器。
布隆过滤器的结构如下所示:


image.png

  • 存储时


数据的key分别对多个hash函数运算,再对运算结果取模得到数值x1,x2...,再将数组中x1,x2..位置置为1。


  • 查询时


key分别对多个hash函数运算,再对运算结果取模得到数值x1,x2...,再查看数组中x1,x2..位置上的数。如果不是全为1,则说明该数据一定不在该SSTable中;如果全为1,则说明该数据有极大概率在该SSTable中,即认为该数据在该SSTable中。


  • 布隆过滤器判定错误的概率


如果数组长度是m,有k个hash函数。每当插入一个元素时的hash值时,数组中某位置置为1的概率是1/m,不置为1的概率是1-1/m。插入一个元素时,一个位置不置为1的概率是(1-1/m)**k。
插入n个元素后,某个位置还是0的概率为(1-1/m)**nk

查找时,某个元素不在容器中,但是它的hash值对应的数组位置都被置为1的概率为(1-(1-1/m)**nk)**k,当n较大时公式变为,又等价无穷小的极限替换公式得到


image.png

由于n和m一般是无法调节的,将k看为变量,对上述函数求导,可得到k=ln2*m/n(约为0.7m/n)时判错率最低。

 LSM-Tree总结


  • 优点


写入快(增、删、改速度非常快),写吞吐量极大:写入时仅写入内存和顺序写入磁盘上的日志,不用关心是否写入磁盘。


  • 缺点


  1. 查询能力被弱化,虽然LSMT有布隆过滤器和SSTable的索引表,但是相比于B+树结构查询仍较慢。
  2. 范围查找能力差。
  3. 查询一个不存在的数据时会进行全表扫描,非常慢。
  4. 压缩过程有时会影响正在进行的读和写的性能,因为磁盘资源有限,当磁盘进行压缩操作时,正常的数据请求有可能需要等待;


LSMT应用

目前基于LSM实现的数据库有:LevelDB,RocksDB,Hbase,Cassandra,ClinkHouse等。

 Google levelDB


Leveldb是由Google的工程师Jeff Dean和Sanjay Ghemawat开发的一个可持久化存储的KV数据库。leveldB在普通的LSMT架构的基础上进行了扩展,使其性能更佳,具体有以下扩展:

  1. 内存中扩展了ImmuTable ,目的是防止MemTable写入磁盘时系统无法对外提供服务,引入ImmuTable后,MemTable数据满时变为ImmuTable,由新的内存区域充当MemTable,这样MemTable便可以不间断的对外提供服务了,ImmuTable在合适时机写入磁盘。
  2. 对磁盘中的SSTable采用冷热数据的思想进行了分级,等级越高的SSTable数据越新,查询时从等级高的数据开始查询,level0>level1>level2... 。
  3. 增加了manifest文件,manifest文件中记录了Level中SSTable的分布,单个SSTable的最大最小key,以及其他一些LevelDB需要的元数据,便于查找时进行过滤。
  4. 增加current文件,manifest随着不断合并可能会有多个,current文件的作用就是记录最新的那个manifest的文件的位置。

image.png

  • levelDB的压缩策略


levelDB扩展完善了LSMT的合并过程,采用多种压缩策略对不同场景下的SSTable进行合并。


三种压缩策略:

压缩策略
描述
minor Compaction 把MemTable中的数据导入到SSTable
major Compaction 合并不同层级的SSTable文件,major Compaction会减少level的数量
full Compaction 将所有的SSTable文件合并


leveldb中实现了minor compaction和major compaction。其中major compaction由size compaction、manul compaction和seek compaction。


size compaction 平衡操作,当系统发现某一层的SSTable数量超过阈值的时候会触发compaction
manul compaction 人工手动触发,通过接口调用人为地去触发它执行Compaction
seek compaction 记录每一个SSTable文件的不命中率,当某个SSTable的不命中率达到阈值时,会将其合并到下一层的level中。

image.png

 HBase

HBase的整体结构如图所示,HDFS的HStore采用LSMT思想结构,分为MemStore和HFile。

MemStore位于内存中,维护一颗有序数据结构。HFile位于磁盘中,是真正存储数据的结构。当MemStore数据达到阈值时会将数据刷入到磁盘中形成一个HFile,当HFile过多时会进行合并。


image.png

image.png

 ClinkHouse

ClinkHouse的Merge引擎也是用的LSMT的思想,其在LSMT基础上更充分的实现了索引。

  • 数据写入过程

数据先写入到内存的缓存区,等到达到缓冲区的阈值时(阈值可以自己配置,默认64KB到1MB),进行数据压缩排序写入硬盘。

每次写入磁盘形成一个新的分区,分区内容包括校验文件、索引文件、偏移文件、数据文件等。通过校验文件校验该分区内数据的完整性;通过索引文件找到要查询的数据;通过偏移文件找到所查找的数据在该分区中的偏移位置(分区内划分压缩块,偏移位置一般指压缩块的便宜位置);数据文件有多个压缩块组成,是存储数据的地方。

  • 分区合并过程

ClinkHouse的分区合并即为LSMT的合并过程,每次写入后形成一个新的分区,clinkhouse会定期将partition值相同的分区进行合并。合并的时候会利用索引文件和偏移文件,按照归并思想进行数据合并,形成新的完成的分区,其中索引文件、便宜文件等都进行合并。

  • Merge引擎整体架构

image.png

image.png

 三者汇总比较

image.png

image.png


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
14天前
|
存储 算法 Serverless
剖析文件共享工具背后的Python哈希表算法奥秘
在数字化时代,文件共享工具不可或缺。哈希表算法通过将文件名或哈希值映射到存储位置,实现快速检索与高效管理。Python中的哈希表可用于创建简易文件索引,支持快速插入和查找文件路径。哈希表不仅提升了文件定位速度,还优化了存储管理和多节点数据一致性,确保文件共享工具高效运行,满足多用户并发需求,推动文件共享领域向更高效、便捷的方向发展。
|
18天前
|
存储 算法 安全
基于哈希表的文件共享平台 C++ 算法实现与分析
在数字化时代,文件共享平台不可或缺。本文探讨哈希表在文件共享中的应用,包括原理、优势及C++实现。哈希表通过键值对快速访问文件元数据(如文件名、大小、位置等),查找时间复杂度为O(1),显著提升查找速度和用户体验。代码示例展示了文件上传和搜索功能,实际应用中需解决哈希冲突、动态扩容和线程安全等问题,以优化性能。
|
1月前
|
存储 人工智能 自然语言处理
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务,并在推理速度上有所提升。
71 6
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
|
2月前
|
搜索推荐 算法 C语言
【排序算法】八大排序(下)(c语言实现)(附源码)
本文继续学习并实现了八大排序算法中的后四种:堆排序、快速排序、归并排序和计数排序。详细介绍了每种排序算法的原理、步骤和代码实现,并通过测试数据展示了它们的性能表现。堆排序利用堆的特性进行排序,快速排序通过递归和多种划分方法实现高效排序,归并排序通过分治法将问题分解后再合并,计数排序则通过统计每个元素的出现次数实现非比较排序。最后,文章还对比了这些排序算法在处理一百万个整形数据时的运行时间,帮助读者了解不同算法的优劣。
170 7
|
2月前
|
搜索推荐 算法 C语言
【排序算法】八大排序(上)(c语言实现)(附源码)
本文介绍了四种常见的排序算法:冒泡排序、选择排序、插入排序和希尔排序。通过具体的代码实现和测试数据,详细解释了每种算法的工作原理和性能特点。冒泡排序通过不断交换相邻元素来排序,选择排序通过选择最小元素进行交换,插入排序通过逐步插入元素到已排序部分,而希尔排序则是插入排序的改进版,通过预排序使数据更接近有序,从而提高效率。文章最后总结了这四种算法的空间和时间复杂度,以及它们的稳定性。
139 8
|
3月前
|
算法 搜索推荐 Java
数据结构与算法学习十三:基数排序,以空间换时间的稳定式排序,速度很快。
基数排序是一种稳定的排序算法,通过将数字按位数切割并分配到不同的桶中,以空间换时间的方式实现快速排序,但占用内存较大,不适合含有负数的数组。
50 0
数据结构与算法学习十三:基数排序,以空间换时间的稳定式排序,速度很快。
|
2月前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
70 0
|
3月前
|
算法
❤️算法笔记❤️-(每日一刷-83、删除排序链表中的重复项)
❤️算法笔记❤️-(每日一刷-83、删除排序链表中的重复项)
40 0
|
4天前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
4天前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。

热门文章

最新文章