【MySQL】事务管理 -- 详解(上)https://developer.aliyun.com/article/1515545?spm=a2c6h.13148508.setting.33.11104f0e63xoTy
八、如何理解隔离性(深度)
数据库并发的场景有三种:
- 读-读 :不存在任何问题,也不需要并发控制。
- 读-写 :有线程安全问题,可能会造成事务隔离性问题,可能遇到脏读、幻读、不可重复读。
- 写-写 :有线程安全问题,可能会存在更新丢失问题,比如第一类更新丢失,第二类更新丢失(后面补充)。
1、读-写
多版本并发控制( MVCC ) 是一种用来解决 读-写冲突 的 无锁并发控制。
为事务分配单向增长的事务 ID,为每个修改保存一个版本,版本与事务 ID 关联,读操作只读该事务开始前的数据库的快照。 所以 MVCC 可以为数据库解决以下问题:
- 在并发读写数据库时,可以做到在读操作时不用阻塞写操作,写操作也不用阻塞读操作,提高了数据库并发读写的性能。
- 同时还可以解决脏读、幻读、不可重复读等事务隔离问题,但不能解决更新丢失问题。
- 每个事务都要有自己的事务 ID,可以根据事务 ID 的大小来决定事务到来的先后顺序。
- mysqld 可能会面临处理多个事务的情况,事务也有自己的生命周期,mysqld 要对多个事务进行管理,先描述,再组织。事务在我看来,mysqld 中一定是对应的一个或者一套结构体对象 / 类对象,事务也要有自己的结构体。
理解 MVCC 需要知道三个前提知识:
- 3 个记录隐藏字段
- undo 日志
- Read View
(1)3 个记录隐藏列字段
- DB_TRX_ID:6 byte,最近修改(修改 / 插入)事务 ID,记录创建这条记录 / 最后一次修改该记录的事务 ID。
- DB_ROLL_PTR:7 byte,回滚指针,指向这条记录的上一个版本(简单理解成指向历史版本就行,这些数据一般在 undo log 中)。
- DB_ROW_ID:6 byte,隐含的自增 ID(隐藏主键),如果数据表没有主键,InnoDB 会自动以 DB_ROW_ID 产生一个聚簇索引。
补充:实际还有一个删除 flag 隐藏字段,既记录被更新或删除并不代表真的删除,而是删除 flag 变了
假设测试表结构是:
上面描述的意思是:
目前并不知道创建该记录的事务 ID ,隐式主键,我们就默认设置 成 null , 1 。第一条记录也没有其他版本,我们设置回滚指针为 null 。
(2)undo 日志
MySQL 将来是以服务进程的方式,在内存中运行。
之前所学的所有机制:索引、事务、隔离性、日志等都是在内存中完成的,即在 MySQL 内部的相关缓冲区中保存相关数据,完成各种判断操作。然后在合适的时候将相关数据刷新到磁盘当中的。
所以,理解 undo log 简单理解成就是 MySQL 中的一段 内存缓冲区 ,用来保存日志数据的就行。
(3)模拟 MVCC
现在有一个事务 10 ,对 student 表中记录进行修改( update): 将 name( 张三 ) 改成 name( 李四 ) 。
- 事务 10 因为要修改,所以要先给该记录加行锁。
- 修改前,现将改行记录拷贝到 undo log 中。所以,undo log 中就有了一行副本数据。(原理就是写时拷贝)
- 所以现在 MySQL 中有两行同样的记录。现在修改原始记录中的 name,改成 '李四',并且修改原始记录的隐藏字段 DB_TRX_ID 为当前 事务 10 的 ID,我们默认从 10 开始,之后递增。而原始记录的回滚指针 DB_ROLL_PTR 列,里面写入 undo log 中副本数据的地址,从而指向副本记录,表示我的上一个版本就是它。
- 事务 10 提交,释放锁。
(此时,最新的记录是 ' 李四' 那条记录)
现在又有一个事务 11 ,对 student 表中记录进行修改( update) :将 age(28) 改成 age(38) 。
- 事务 11 因为也要修改,所以要先给该记录加行锁。
- 修改前,现将改行记录拷贝到 undo log 中。所以,undo log 中就又有了一行副本数据。此时,新的副本我们采用头插方式,插入 undo log。
- 现在修改原始记录中的 age 改成 38,并且修改原始记录的隐藏字段 DB_TRX_ID 为当前事务 11 的 ID。而原始记录的回滚指针 DB_ROLL_PTR 列里面写入 undo log 中副本数据的地址,从而指向副本记录,既表示我的上一个版本就是它。
- 事务11提交,释放锁。
这样,就有了一个基于链表记录的历史版本链。所谓的回滚无非就是用历史数据覆盖当前数据。
上面的一个个版本,我们可以称之为一个个的 快照 。
【思考】
上面是以更新(upadte)主讲的,如果是 delete 呢?
一样的,别忘了,删数据不是清空,而是设置 flag 为删除即可,也可以形成版本。
如果是 insert 呢?
因为 insert 是插入,也就是之前没有数据,那么 insert 也就没有历史版本。但是一般为了回滚操作,insert 的数据也是要被放入 undo log 中,如果当前事务 commit 了,那么这个 undo log 的历史 insert 记录就可以被清空了。
总结:也就是可以理解成 update 和 delete 可以形成版本链, insert 暂时不考虑。
那么 select 呢?
select 不会对数据做任何修改,所以为 select 维护多版本没有意义。
此时有个问题,就是 select 读取,是读取最新的版本呢?还是读取历史版本?
- 当前读:读取最新的记录,就是当前读。增删改,都叫做当前读,select 也有可能当前读,比如:select lock in share mode(共享锁),select for update。
- 快照读:读取历史版本(一般而言),就叫做快照读。(这个后面重点讨论)
可以看到,在多个事务同时删改查时都是当前读,是要加锁的。那同时有 select 过来,如果也要读取最新版( 当前读) ,那么也就需要加锁,这就是串行化。
但如果是快照读,读取历史版本的话,是不受加锁限制的,也就是可以并行执行。换而言之,提高了效率,即 MVCC 的意义所在。
那么是什么决定了 select 是当前读还是快照读呢?
隔离级别。
那为什么要有隔离级别呢?
事务都是原子的。所以无论如何,事务总有先有后。
但是经过上面的操作可以发现,事务从 begin->CURD->commit 是有一个阶段的,也就是事务有执行前,执行中,执行后的阶段。但不管怎么启动多个事务,总是有先有后的。
那么多个事务在执行中的 CURD 操作是会交织在一起的。那为了保证事务的 “ 有先有后 ” ,是不是应该让不同的事务看到它该看到的内容,这就是所谓的隔离性与隔离级别要解决的问题。
先来的事务应不应该看到后来的事务所做的修改呢? 那么如何保证不同的事务看到不同的内容呢?也就是如何实现隔离级别?
(4)Read View
Read View 就是事务进行 快照读 操作的时候生产的 读视图 ( Read View) ,在该事务执行的快照读的那一刻会生成数据库系统当前的一个快照,记录并维护系统当前活跃事务的 ID( 当每个事务开启时都会被分配一个 ID, 这个 ID 是递增的,所以最新的事务 ID 值越大)
Read View 在 MySQL 源码中 就是一个 类 ,本质是用来进行可见性判断的。 即当我们某个事务执行快照读的时候,对该记录创建一个 Read View 读视图,把它比作条件 用来判断当前事务能够看到哪个版本的数据,既可能是当前最新的数据,也有可能是该行记录的 undo log 里面的某个版本的数据。
下面是简化过的 ReadView 结构:
class ReadView { // ... private: // 高水位,大于等于这个ID的事务均不可见 trx_id_t m_low_limit_id // 低水位:小于这个ID的事务均可见 trx_id_t m_up_limit_id; // 创建该 Read View 的事务ID trx_id_t m_creator_trx_id; // 创建视图时的活跃事务id列表 ids_t m_ids; // 配合purge,标识该视图不需要小于m_low_limit_no的UNDO LOG // 如果其他视图也不需要,则可以删除小于m_low_limit_no的UNDO LOG trx_id_t m_low_limit_no; // 标记视图是否被关闭 bool m_closed; // ... };
m_ids; // 一张列表,用来维护Read View生成时刻,系统正活跃的事务ID up_limit_id; // 记录m_ids列表中事务ID最小的ID low_limit_id; // ReadView生成时刻系统尚未分配的下一个事务ID,也就是目前已出现过的事务ID的最大值+1 creator_trx_id; // 创建该ReadView的事务ID
我们在实际读取数据版本链的时候,是能读取到每一个版本对应的事务 ID 的,即当前记录的 DB_TRX_ID 。
那我们现在手里面有的东西就有,当前快照读的 ReadView 和 版本链中的某一个记录的 DB_TRX_ID 。
所以现在的问题就是,当前快照读应不应该读到当前版本记录。(下图可解决该问题)
Read View 是事务可见性的一个类,不识事务创建出来就有的,而是当这个事务(已经存在)首次进行快照读时,MySQL 形成的。
对应源码策略:
如果查到不应该看到当前版本,接下来就是遍历下一个版本,直到符合条件就可以看到。上面的 readview 是当你进行 select 时会自动形成。
(5)整体流程
- 假设当前有条记录:
- 事务操作:
事务 4 :修改 name( 张三 ) 变成 name( 李四 )。
当 事务 2 对某行数据执行了 快照读 ,数据库为该行数据生成一个 Read View 读视图。
// 事务2的 Read View m_ids; // 1, 3 up_limit_id; // 1 low_limit_id; // 4+1=5,原因:ReadView生成时刻,系统尚未分配的下一个事务ID creator_trx_id; // 2
- 此时版本链是:
- 只有事务 4 修改过该行记录,并在事务 2 执行快照读前,就提交了事务。
- 事务 2 在快照读该行记录时会拿该行记录的 DB_TRX_ID 去跟 up_limit_id,low_limit_id 和活跃事务 ID 列表 (trx_list) 进行比较,判断当前事务 2 能看到该记录的版本。
// 事务2的 Read View m_ids; // 1, 3 up_limit_id; // 1 low_limit_id; // 4+1=5,原因:ReadView生成时刻,系统尚未分配的下一个事务ID creator_trx_id; // 2 // 事务4提交的记录对应的事务ID DB_TRX_ID=4 // 比较步骤 DB_TRX_ID(4)< up_limit_id(1) ? 不小于,下一步 DB_TRX_ID(4)>= low_limit_id(5) ? 不大于,下一步 m_ids.contains(DB_TRX_ID) ? 不包含,说明,事务4不在当前的活跃事务中。 // 结论 事务4的更改应该看到。 所以事务2能读到的最新数据记录是事务4所提交的版本,而事务4提交的版本也是全局角度上最新的版本
(6)RR 与 RC 的本质区别
a. 当前读和快照读在 RR 级别下的区别
select * from user lock in share mode 以加共享锁方式进行读取,对应的就是当前读。
- 测试用例1 - 表1:
- 测试用例2 - 表2:
- 用例 1 与用例 2 唯一区别仅仅是表 1 的事务 B 在事务 A 修改 age 前快照读过一次 age 数据。
- 而表 2 的事务 B 在事务 A 修改 age 前没有进行过快照读。
【结论】
- 事务中快照读的结果是非常依赖该事务首次出现快照读的地方,即某个事务中首次出现快照读,决定该事务后续快照读结果的能力 delete 也同样如此
【总结 —— RR 与 RC 的本质区别】
- 正是 Read View 生成时机的不同,从而造成 RC 和 RR 级别下快照读的结果的不同。
- 在 RR 级别下的某个事务的对某条记录的第一次快照读会创建一个快照及 Read View 将当前系统活跃的其他事务记录起来。
- 此后在调用快照读时,使用的还是同一个 Read View,所以只要当前事务在其他事务提交更新之前使用过快照读,那么之后的快照读使用的都是同一个 Read View,所以对之后的修改不可见。
- 即 RR 级别下,快照读生成 Read View 时,Read View 会记录此时所有其他活动事务的快照,这些事务的修改对于当前事务都是不可见的。而早于 Read View 创建的事务所做的修改均是可见的。
- 而在 RC 级别下的,事务中,每次快照读都会新生成一个快照和 Read View,这就是我们在 RC 级别下的事务中可以看到别的事务提交的更新的原因。
- 总之在 RC 隔离级别下,是每个快照读都会生成并获取最新的 Read View;而在 RR 隔离级别下,则是同一个事务中的第一个快照读才会创建 Read View,之后的快照读获取的都是同一个 Read View。
- 正是 RC 每次快照读,都会形成 Read View,所以 RC 才会有不可重复读问题。
2、读-读
不讨论。
3、写-写
现阶段直接理解成都是当前读,这里不做深究。