浅析nvme原子写的应用场景

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 在NVME协议Command Set Spec中,我们可以看到针对nvme设备相关的原子操作的定义相关参数。原子写的简单理解就是,一笔写操作,要不全部写入盘,要不全部未写入盘,不存在部分写入+部分未写入的情况,最大限度保证数据一致性。

1.NVMe原子写简介

NVME协议家族,当前发展的已经非常庞大,来张nvme家族大合影。从最开始的NVME Base Spec,又延伸了更加专业聚焦的模块Command Set Spec、Transport Spec,NVME MI Spec等等。

在Command Set Spec中,我们可以看到针对nvme设备相关的原子操作的定义相关参数。原子写的简单理解就是,一笔写操作,要不全部写入盘,要不全部未写入盘,不存在部分写入+部分未写入的情况,最大限度保证数据一致性。

从nvme协议中的定义来看,原子写参数主要分为三大类:控制器controller级别、namespace级别以及namespace原子写边界相关参数。

  • AWUN:Atomic Write Unit Normal,这个参数是定义了控制器级别的原子写参数,以block数量为单位,常见的盘的block的大小有512B、4K、16K等。单个block本身就有原子写属性。当写入IO=<AWUN,该IO可以完成原子写的操作。不过需要注意,当写入IO>=AWUN时,且namespace没有设定原子写操作参数,会失去原子写的能力,NVME盘是不会有相关错误返回,需要上层用户自己掌控原子写的约束条件

下图示例,AWUN=2KB,每个LBA 512B。假设两笔原子写操作:A原子写命令填充LBA0-3数据,B原子写命令填充LBA1-4数据,且均小于等于AWUN的原子写单位。那么,有效的结果就是前2行,要么LBA0-3 A+ LBA4 B,要么LBA0 A+LBA1-4 B,每一笔写入都是原子操作,不能出现后两种部分写入的情况。

  • AWUPF:Atomic Write Unit Power Fail,这个比较好理解,当出现异常掉电的情况,当写入IO=<AWUPF时,可以保证原子写的能力,同时也要求AWUPF=<AWUN, 不能超过控制器本身的原子写的能力。企业级SSD中通常有PLP掉电保护的大电容,不会影响数据安全,消费级SSD如果使用原子写能力,可能需要重点关注这项。在linux系统中,可以通过nvme_id_ctrl相关的命令获取原子写参数的配置

struct nvme_id_ctrl {

  ...

  __u8 tnvmcap[16];

  __u8 unvmcap[16];

  ...

  __le16 awun;

  __le16 awupf;

  __le16 acwu;

  ...

};

  • NAWUN/NAWPF:这两个参数是Namespace级别的,定义与AWUN/AWUPF类似,控制器级别的参数也可以用于namespace级别原子写,需要注意的是,namespace级别原子写的参数>=控制器级别的原子写参数,比如NAWUN>=AWUN, NAWUPF>=AWUPF. 也就是说,namespace级别原子写支持更大的原子写能力。此外,Namespace级别原子写需要注意LBA边界的问题
  • ACWU/NACWU:这两个参数是控制器和namespace相关的比较&写两种操作原子能力参数。不过,这个在nvme协议里面也是optional的,没有特别具体的定义,nvme盘基本不支持这个特性。
  • NABSN/NABO/NABSPF:这三个参数定义的是Namespace级别的原子写操作边界,在nvme协议规范中也是Optional的。

如下图示例,黄色或者蓝色的4个格子是一个边界大小NABSN/NABSPF,原子写操作要符合规则的定义,不能夸边界原子写操作。NABSN/NABSPF要大于等于NAWUN/NAWPF,且NABO小于等于NABSN/NABSPF,用一个对比关系式:NABSN/NABSPF>=(NAWUN/NAWPF & NABO).

但也需要注意,如果控制器AWUN/AWUPF/ACWU限制为0,即使出现跨边界的写,在控制器级别也是可以完成原子写操作,可以不用管NABSN/NABSPF这些namespace的边界约束。

2.应用场景

在数据库应用场景中,对数据一致性有很高的要求。比如在MySQL InnoDB场景,page size是16KB,数据校验也是16KB。但是盘通常是block size是4KB,导致在某些场景(比如掉电场景)无法保证16KB原子写落盘,出现partial write问题。为了解决这个问题,MySQL会在脏数据下刷到文件时,会先复制到double write buffer。然后double write buffer分2次在写入共享表空间,最后通过fsync刷新到硬盘。

double write buffer带来的负面影响就是会有额外的开销,在MySQL官网也是推荐采用O_Direct的方式降低double write buffer的影响。在DirectIO模式下,可以把数据以DMA的形式写入SSD中,避免了buffering IO相关的脏数据问题,降低延迟抖动的影响。

支持Direct IO写入的数据库类型主要有:

  • Oracle
  • SAP HANA
  • MySQL (InnoDB storage engine)
  • RocksDB
  • PostgreSQL
  • Teradata

基于MySQL数据库Direct IO模式应用场景,如果要使用硬件的原子写能力,要经过文件系统、block层、驱动层,才能闯关成功。

闯关第一步:文件系统

此时,文件系统Direct IO模式可以绕过文件系统的缓存,直接写入,文件系统不会有太多的影响,会通过BIO提交IO到Block层。比如ext4文件系统中,通过ext4_direct_IO下发到块设备中。

闯关第二步:Block块设备层

在block块设备层,可能会出现IO merge合并和IO Split拆分的情况。如果要原子写的效果,在Block层就不能发生IO拆分或者合并的情况。

在linux内核中,可以查询merge是否已开启:

cat /sys/class/block/device-name/queue/nomerges

This enables the user to disable the lookup logic involved with IO merging requests in the block layer. By default (0) all merges are enabled. When set to 1 only simple one-hit merges will be tried. When set to 2 no merge algorithms will be tried (including one-hit or more complex tree/hash lookups).

闯关第三步:NVME驱动层

这部分对IO没有merge,主要是获取nvme盘硬件的原子写能力,然后通过块设备层接口对块设备相关的原子写能力进行设置。


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
存储 固态存储 关系型数据库
性能优化特性之:16K原子写
本文介绍了在倚天实例上进行内存优化的调优特性:16K原子写 的优化原理、使用方法。
|
5月前
|
存储 监控 算法
高性能存储 SIG 月度动态:优化 xfs dax reflink 时延,独立选型并维护 mdadm 和 ledmon
高性能存储 SIG 月度动态:优化 xfs dax reflink 时延,独立选型并维护 mdadm 和 ledmon。
|
固态存储 关系型数据库 MySQL
NVMe SSD原子写
NVMe SSD原子写
849 0
NVMe SSD原子写
|
存储 人工智能 Cloud Native
高性能存储SIG月度动态:io_uring支持nvme直通,DSMS完成开发测试
Cloud Kernel SIG 月度动态送达,一键了解 5 月各项目进展。
|
存储 固态存储 安全
如何实现SSD系统级的可靠性?
前传中讲到的Read disturb与Program disturb 属于架构级的可靠性,Data Retention与P/E Endurance属于物理级的可靠性,这些基本可以归纳为NAND闪存相关的可靠性。 看完前传,咱们进入正传,介绍一下SSD系统级可靠性的实现手段。
|
存储 固态存储 大数据
你知道企业级SSD与消费级SSD的区别吗?
【引语】 前两天,一位从事大数据工作的好朋友问我: “企业级SSD与消费级SSD的区别是什么?” “大数据中心能否采用消费级SSD?” 我想,大部分朋友应该都知道SSD分为企业级和消费级,但是这两者之间的区别,也许并不十分清楚。
|
存储 固态存储 算法
多维度深入剖析QLC SSD硬件延迟的来源
不同的FW架构设计、FTL算法设计、NAND die plane/速率等的差异,都会直接影响SSD的性能与延迟,设计一块性能优越且稳定的SSD,是一项繁琐但具有很强艺术性的工程。
|
存储 固态存储 算法
剖析QLC SSD硬件延迟的来源
不同的FW架构设计、FTL算法设计、NAND die plane/速率等的差异,都会直接影响SSD的性能与延迟,设计一块性能优越且稳定的SSD,是一项繁琐但具有很强艺术性的工程。
|
存储 缓存 固态存储
计算机硬件的读写速度差异
计算机硬件的读写速度差异
280 0
计算机硬件的读写速度差异
|
数据采集 设计模式 移动开发
原子设计系统
原子设计是一种方法,由五个不同的阶段一起工作,以更慎重和更具层次的方式创建界面设计系统。
原子设计系统