接上篇 :https://developer.aliyun.com/article/1223091?spm=a2c6h.13148508.setting.21.44ec4f0eNvAByn
做vacuum时,正常情况下需要将表的所有数据扫描一遍。为了提高效率,PolarDB使用了VM(可见性地图)数据文件。
如上图,比如当前有三个数据块,第二块里不包含被删除的行,则VM会将其标识为1。后续做vacuum时,会跳过VM=1的页,提高vacuum的效率。
9.6版本以后,可见性地图除了提高 vacuum的效率以外,同时也提高了冻结的效率。
数据库为了描述事务操作的先后顺序,会为事务分配ID号,即TxID。
TxID不会无限增大,而是循环使用。最大的可用事务ID为42亿,PolarDB将其分为两半,前21亿代表“过去的或当前正在用的”,此类事务ID修改的行为对用户可见;而后21亿事务ID代表“未来的”,修改的函数不可见。
两个部分的21亿事务ID可以循环使用。比如前面的21亿使用完以后,再用后面的21亿,使用完以后再重新使用前面的21亿。
冻结主要针对可见性规则。
比如当前正在使用后21亿的TxID,而前21亿中某个数据块里仍有数据,需要对用户可见。因此,将其标记为冻结,使得其可见。
冻结处理分为懒惰模式和急切模式。懒惰模式指每次小部分、分批次地进行冻结,类似于日常做卫生;急切模式指大批量地冻结,类似于年终大扫除。
惰性冻结的公式中,OldestXmin指当前最小的事务id,vacuum_freeze_min_age是一个固定参数,默认为5000万。
以上图为例,假设当前的最小事务id为50002500,意味着要将小于或等于2500的ID都冻结。
冻结时,首先会先判断VM值,如果VM为1(当前数据块内不存在被删除的行),则跳过,不对其进行冻结。然后判断每一个块内每一行的事务id,如果id<=2500,则在其某一位上标记为frozen;若id>2500,则跳过。比如上图中Turple9内最后一行id为3000,因此不冻结。
急性冻结的触发条件为:自上一次急性冻结后,TxID使用了1亿5000万后会再次触发。
如上图,如果从未做过急性冻结,则datfrozenxid默认为560。发生急性冻结后,datfrozenxid会变为该次急性冻结的TxID。
如上图所示,当前最小的事务id为150002000,150002000-5000000=100002000,因此事务id小于100002000的行全部进行冻结。
比如当前有三个块,PolarDB会对三个块全部进行扫描,事务ID小于100002000的,在该行某一位做frozen标记。
可以理解为,只有很早以前的事务修改的行会被冻结,最新修改的行不冻结。
接下篇:https://developer.aliyun.com/article/1223089?groupCode=polardbforpg