三歪吐血总结了各个中间件是如何实现持久化的

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
注册配置 MSE Nacos/ZooKeeper,118元/月
性能测试 PTS,5000VUM额度
简介: 到目前为止,三歪也已经接触到了不少的中间件了,比如说「Elasticsearch」「Redis」「HDFS」「Kafka」「HBase」等等。可以发现的是,它们的持久化机制都差不得太多。今天想来总结一下,一方面想来回顾一下这些组件,一方面给还没入门过这些中间件的同学总结一下持久化的”套路“,后面再去学习的时候就会轻松很多。

久化


下面我们就直接来分别回顾一下各个中间件/组件的持久化机制,最后再总结就好了(三歪相信大家应该也能从回顾中看出些端倪)

为什么要持久化?原因也很简单:数据需要存储下来,不希望出了问题导致数据丢失


Elasticsearch


Elasticsearch是一个全文搜索引擎,对模糊搜索非常擅长。

Elasticsearch在写数据的时候,会先写到内存缓存区,然后写到translog缓存区,每隔5stranslog缓冲区的数据刷到磁盘中

42.jpg


Kafka


众所周知,Kafka是一个高吞吐量的消息队列,那它是怎么持久化的呢?

Kafka relies heavily on the filesystem for storing and caching messages.

没错Kafka用的是文件系统来存储的。

在Kafka官网上其实也说了,Kafka的持久化依赖操作系统的pagecache顺序写来实现的。

41.jpg


HDFS


HDFS是分布式文件系统,能存储海量的数据,那HDFS在写入数据的时候是怎么样的呢?

HDFS Client客户端无论读写都需要走到NameNode去获取/增删改文件的元数据,而NameNode则是专门维护这些元数据的地方。

所以,在HDFS写数据,需要先去NameNode上询问这些切分好的block往哪几个DataNode上写数据。

为了提高NameNode的效率,在写数据的时候,NameNode实际上是操作的是内存,然后涉及到增删改的数据顺序写到editlog日志文件上

40.jpg

Redis


Redis是基于内存的,如果不想办法将数据保存在硬盘上,一旦Redis重启(退出/故障),内存的数据将会全部丢失。

我们肯定不想Redis里头的数据由于某些故障全部丢失(导致所有请求都走MySQL),即便发生了故障也希望可以将Redis原有的数据恢复过来,所以Redis有RDBAOF的持久化机制。

  • RDB:基于快照,将某一时刻的所有数据保存到一个RDB文件中。
  • AOF(append-only-file),当Redis服务器执行写命令的时候,将执行的写命令保存到AOF文件中。

AOF持久化功能的实现可以分为3个步骤:

  • 命令追加:命令写入aof_buf缓冲区
  • 文件写入:调用flushAppendOnlyFile函数,考虑是否要将aof_buf缓冲区写入AOF文件中
  • 文件同步:考虑是否将内存缓冲区的数据真正写入到硬盘

39.jpg


HBase


HBase是一个能存储海量数据的数据库

HBase在写数据的时候,会先写到Mem Store,当MemStore超过一定阈值,就会将内存中的数据刷写到硬盘上,形成StoreFile,而StoreFile底层是以HFile的格式保存,HFile是HBase中KeyValue数据的存储格式。

我们写数据的时候是先写到内存的,为了防止机器宕机,内存的数据没刷到磁盘中就挂了。我们在写Mem store的时候还会写一份HLog

38.jpg


MySQL


MySQL我们用得最多的InnoDB引擎是怎么存储的呢?它有redo log来支撑持久化的功能。

MySQL引入了redo log,内存写完了,然后会写一份redo log,这份redo log37.jpg


总结


看完上面常见的中间件/组件的持久化方式,应该就不用我多说了吧?思想几乎都是一样的,只是他们记录“log”的名字不一样而已。

先写buffer,然后顺序IO写Log。防止buffer的数据还没刷到磁盘,宕机导致数据丢失。

对于Log文件,中间件也不会放任它们一直膨胀,导致体积很大:

  • 在Redis里边,会对AOF文件进行重写
  • 在HDFS里边,editlog会定时生成fsimage
  • 在Elasticsearch里边,translog会根据阈值触发commit操作
  • .....
目录
相关文章
|
7月前
|
存储 监控 安全
中间件应用优化持久化配置
【5月更文挑战第4天】中间件应用优化持久化配置
92 2
中间件应用优化持久化配置
|
消息中间件 存储 网络协议
|
7月前
|
消息中间件 存储 负载均衡
消息中间件的选择:RabbitMQ是一个明智的选择
消息中间件的选择:RabbitMQ是一个明智的选择
116 0
|
6月前
|
消息中间件 存储 中间件
【消息中间件】详解三大MQ:RabbitMQ、RocketMQ、Kafka
【消息中间件】详解三大MQ:RabbitMQ、RocketMQ、Kafka
1621 0
|
5月前
|
消息中间件 编解码 Docker
Docker部署RabbitMQ消息中间件
【7月更文挑战第4天】Docker部署RabbitMQ消息中间件
280 3
|
2月前
|
消息中间件 编解码 Docker
【Docker项目实战】Docker部署RabbitMQ消息中间件
【10月更文挑战第8天】Docker部署RabbitMQ消息中间件
118 1
【Docker项目实战】Docker部署RabbitMQ消息中间件
|
4月前
|
消息中间件 Java 测试技术
消息中间件RabbitMQ---SpringBoot整合RabbitMQ【三】
这篇文章是关于如何在SpringBoot应用中整合RabbitMQ的消息中间件。内容包括了在SpringBoot项目中添加RabbitMQ的依赖、配置文件设置、启动类注解,以及如何通过单元测试来创建交换器、队列、绑定,并发送和接收消息。文章还介绍了如何配置消息转换器以支持对象的序列化和反序列化,以及如何使用注解`@RabbitListener`来接收消息。
消息中间件RabbitMQ---SpringBoot整合RabbitMQ【三】
|
4月前
|
消息中间件 Docker 容器
消息中间件RabbitMQ---Docker安装RabbitMQ、以及RabbitMQ的基本使用【二】
这篇文章提供了RabbitMQ的安装和基本使用教程,包括如何使用Docker拉取RabbitMQ镜像、创建容器、通过浏览器访问管理界面,以及如何创建交换机、队列、绑定和使用direct、fanout和topic三种类型的交换器进行消息发布和接收的测试。
消息中间件RabbitMQ---Docker安装RabbitMQ、以及RabbitMQ的基本使用【二】
|
4月前
|
消息中间件 存储 网络协议
消息中间件RabbitMQ---概述和概念 【一】
该文章提供了对消息中间件RabbitMQ的全面概述,包括其核心概念、工作原理以及与AMQP和JMS的关系。
消息中间件RabbitMQ---概述和概念 【一】
|
5月前
|
消息中间件 监控 负载均衡
中间件RabbitMQ性能瓶颈
【7月更文挑战第13天】
327 11