MVCC 介绍
MVCC 全称是 Multiversion concurrency control,即多版本并发控制。从它的名字就可以看出是关于在并发时对读写控制的一种方法,基本市面上流行的 Database 都有其具体的实现。
MVCC 使得各个事务在读写数据时能最大程度的降低锁的依赖,在保证事务隔离性的同时,也能让读类型的事务和写操作的事务并发进行。
当我们在进行修改操作时,MVCC 会通过 undo log 保留了之前的数据记录,就像每条记录都有自己的历史版本一样。
通过这些历史版本的追溯,MVCC 就再也不怕写操作的影响了,这就是 MVCC 的精髓所在了。
MVCC 作用
我们知道,在事务的四大特性中有隔离性的存在,而它的实现离不开锁的运用。但是锁有它的性能瓶颈,比如需要排队等待或者一不小心就产生死锁等等。
而在有了 MVCC 多版本控制后,读写操作再也不用小心翼翼的防着对方,大大提高了数据库的并发处理。
当然,这针对的是读和写的并发情况,如果是写和写的同时操作,那么原来该怎么控制就得怎么控制,这是涉及到数据的完整性原则了。
所以,MVCC 主要是优化了读写并发的操作,对于很多读多写少的互联网项目,已经能达到优化的目的了。
MVCC 原理
在说 MVCC 的详细原理之前,我们先来介绍下 undo log,它在 MVCC 里发挥了很大的作用。
undo log 是对事务操作时的一个日志记录,以提供数据回滚功能。比如现在事务进行了 insert 操作,则回滚时会逆向解析为 delete;如果是 delete 操作,则变为 insert 操作,相当于一种逻辑的反向操作。
而 undo log 除了记录下每一次的操作类型、数据情况和事务 ID 外,还包含了一个指针:即上一次的记录指针,以形成完整的历史链路。
所以 MVCC 历史版本数据就来是从 undo log 的记录指针去追溯获取的。那么,最近一次的记录指针是存放在哪里呢?
实际上,每当我们插入一行数据的时候,数据库还会额外的帮我们生成 2 个隐形字段:
- DB_TRX_ID:事务 ID
- DB_ROLL_PTR:回滚记录指针。
这一行的 DB_ROLL_PTR 也就是最近一次的记录指针了,这样的话,每次需要追溯历史版本,就可以从这开始了。
前面提及到事务的隔离性,隔离性是有四个隔离级别的:未提交读、已提交读、可重复读、可串行化。而事实上 MVCC 只在已提交读
、可重复读
隔离级别上实现了。
因为未提交读
要求最低,不管三七二十一,只要能获取到数据就返回了。而可串行化
天生就把别的请求挡在外面了,不用考虑事务之间的并发执行了。
在已提交读
、可重复读
的隔离级别上,MVCC 也会有所不一样的,主要体现在 Read View 的生成上。
Read View 是对当时所活跃的事务 id 的维护,包含的字段如下:
- m_ids:当时正在发生的所有事务 id 集合
- m_low_limit_id:当前事务最多能读取到的事务 id,相当于“高水位”警戒线,超过它就不能继续读了。
- m_up_limit_id:跟上面相反,属于“低水位”警戒线,所读取的事务 id 都应该比这个值大。
- m_creator_trx_id:当前的事务 id。
当把这些事务 id 维护到当前事务的 Read View 里后,就可以控制其他事务对当前事务的可见性了。
比如当前 Read View 的 m_low_limit_id 是 10,那即使后面又有新的事务产生,当前事务也只能读取到这个 id 为 10 的事务为止,毕竟后面的事务是属于新来的。
又比如当前事务需要回滚了,则会根据 undo log 的记录指针以及 Read View 的 m_up_limit_id 去控制回滚。
解释了 Read View 的作用后,我们继续讲讲已提交读、可重复读在 MVCC 上的不同。
对于已提交读,它在每次 SELECT 的时候都会重新生成 Read View,所以已提交读在同一事务里将有可能读到不一样的提交数据!
而可重复读只在第一次 SELECT 的时候生成,所以后面读取到的数据都在此处的版本控制内!
关于 MVCC 在 undo log 里所产生的历史版本也不会一直存着,在满足一定条件后则会被标记为清除状态,等待清理。
像对于 insert 类型的 undo log 则可以在提交事务后就标记为清除状态了,因为这是属于新增的,不会有其他事务依赖到。
总结
MVCC 通过 undo log 的 记录指针获得了一个个的历史版本,就像镜像备份一样,使得数据的读写不必再依赖一份数据,提高了并发执行效率。
不过,undo log 清除线程比较滞后的话,将会导致 undo log 越来越大,影响磁盘操作效率。必要的时候需要配置一些系统变量以分配更多的资源给清除线程。
总体来讲,MVCC 的使用是有意义的,就像空间换时间一样,在这里就是冗余版本换并发性能了。