InnoDB 最大的特点之一就是支持事务,而不同时刻启动的事务对于其他事务来说,可见性不一样,比如可重复读隔离级别下,启动一个事务,查询数据之后会创建一个一致性视图,该事务提交之前的查询都将依赖于这个一致性视图,就好像给所有数据 拍了一个快照 一样,这篇文章就学习一下 MVCC 数据的多版本并发控制是如何实现秒级快照的。
1.笔记图
2.事务的执行流程
- 事务启动的时机
- 第一种启动方式,一致性视图是在执行第一个快照读语句时创建的
- 第二种启动方式,一致性视图是在执行 start transaction with consistent snapshot 时创建的
- 假设隔离级别是可重复读
- 事务 C 这个 update 语句本身就是一个事务,语句完成的时候会自动提交
- 事务 A 在一个只读事务中查询,并且时间顺序上是在事务 B 的查询之后
- 事务 B 在更新了行之后查询
- 事务 B 查到的 k 的值是 3,事务 A 查到的 k 的值是 1
3.两个视图概念
- view:它是一个用查询语句定义的虚拟表,在调用的时候执行查询语句并生成结果
- 一致性读视图:InnoDB 在实现 MVCC 时用到的一致性读视图 consistent read view,用于支持 RC(Read Committed,读提交) 和 RR(Repeatable Read,可重复读)隔离级别的实现
4.MVCC 工作原理
- 在可重复读隔离级别下,事务在启动的时候 拍了个基于整库的快照,并不需要拷贝数据
- InnoDB 里面每个事务有一个唯一的事务 transaction id,是按申请顺序严格递增的
- 每次事务更新数据的时候,都会生成一个新的数据版本,并且把 transaction id 赋值给这个数据版本的事务 ID,记为row trx_id
- 数据表中的一行记录,其实可能有多个版本 (row),每个版本有自己的 row trx_id
- undo log:
- 图中的三个虚线箭头,就是 undo log
- V1、V2、V3 并不是物理上真实存在的,而是每次需要的时候根据当前版本和 undo log 计算出来的
5.当前读
- 更新数据都是先读后写的,而这个读,只能读当前的值
- select 语句如果加锁,也是当前读
select k from t where id=1 lock in share mode; select k from t where id=1 for update;
6.查询数据可见性规则
- InnoDB 为每个事务构造了一个数组,用来保存这个事务启动瞬间,当前正在 活跃 的所有事务 ID(活跃 指的就是,启动了但还没提交)
- 数组里面事务 ID 的最小值记为低水位
- 系统里面已经创建过的事务 ID 的最大值加 1 记为高水位
- 视图数组和高水位,就组成了当前事务的一致性视图(read-view)
- 一个数据版本的 row trx_id 如果落在绿色部分,这个数据是可见的
- 一个数据版本的 row trx_id 如果落在红色部分,是不可见的
- 一个数据版本的 row trx_id 如果落在黄色部分,包括两种情况
- 若 row trx_id 在数组中,表示这个版本是由还没提交的事务生成的,不可见
- 若 row trx_id 不在数组中,表示这个版本是已经提交了的事务生成的,可见
- 事务 A 开始前,系统里面只有一个活跃事务 ID 是 99
- 事务 A、B、C 的版本号分别是 100、101、102,且当前系统里只有这四个事务
- 三个事务开始前,(1,1) 这一行数据的 row trx_id 是 90
- 事务 A 要读数据,它的视图数组是 [99,100],读数据都是从当前版本读起的
- 找到 (1,3) 的时候,判断出 row trx_id=101,比高水位大,不可见
- 接着,找到上一个历史版本,一看 row trx_id=102,比高水位大,不可见
- 再往前找,找到 (1,1),它的 row trx_id=90,比低水位小,处于绿色区域,可见
Tips:在可重复读隔离级别下,事务在启动之后,若更新某行数据后,会对改行加一个行锁,直到事务提交之后才释放。