MySQL8.0.12 · 引擎特性 · LOB Partial Update优化

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: 在之前,笔者介绍过InnoDB对于lob列的更新优化,即允许对lob类型的列数据进行部分更新。由于undo log page本身的限制(例如无法存储过长的数据),对于大列更新,旧版本被留在数据文件中,在MVCC读时,直接从中读旧版本即可。

在之前,笔者介绍过InnoDB对于lob列的更新优化,即允许对lob类型的列数据进行部分更新。由于undo log page本身的限制(例如无法存储过长的数据),对于大列更新,旧版本被留在数据文件中,在MVCC读时,直接从中读旧版本即可。然而对于超长lob列数据,标记删除旧版本再插入完整新数据的开销太大了,尤其是对于json列,通常我们只需要修改其中极少部分的数据。 为了解决这个问题,InnoDB在8.0版本中实现了partial update的概念,将更新的范围缩小到page单位,并对lob Page辅助以索引,每个索引项可以维持一个lob page的多个版本(For MVCC)

WL#11328认为可以对部分更新操作做进一步的优化, 举个简单的例子,一个Page内可能只修改了几十个字节,却需要创建一个新的page,这依然会产生不少的开销,因此在MySQL8.0.12中,对这部分逻辑进行了进一步的优化:当更新少于某个阈值时,采用Undo来记录老的lob数据修改。在需要读数据时,将这部分修改apply到lob列中。根据官方博客中的测试,最多带来了接近三倍的TPS提升,还是相当理想的。

本文主要记录下涉及到的相关代码, 基于MySQL8.0.12。

update

计算更新的字节数

MySQL Server层实际上已经记录了Lob diff,对字段的修改产生的diff维护在Binary_diff_vector中,vector中每个元素类型为Binary_diff,代表对列上的一部分的修改。对一列的更新可能产生多个binary diff。

InnoDB据此信息,去定位到对应的lob数据,InnoDB当前hardcode了一个值LOB_SMALL_CHANGE_THRESHOLD,默认为100字节,当更新的字节数(upd_t::get_total_modified_bytes())小于这个阈值时,走新的逻辑,否则走之前的逻辑(产生一个新的lob page,并递增版本)

写undo

由于在undo中记录的是部分更新,而不是全部Lob数据,undo log的格式需要做一些改动(这意味着升级到8.0.12之后将无法降级到之前的版本), 主要如下:

  • 增加一个flag TRX_UNDO_MODIFY_BLOB, 表示Undo log支持 lob partial update。
  • 新扩展一个byte,用于未来使用
  • 将Binary diffz中存储的老数据(以及对应lob index entry信息)记录入undo log

一个典型的Undo log包含(取自官方博客):

image

ref: trx_undo_page_report_modify

新的修改在记录update vector这里做了扩展,下图取自官方博客:

image

入口函数: trx_undo_report_blob_update

  • 检查所有binary diff的长度是否超过100字节,如果超过了,表明不是small update,则数组长度设置为0,并返回
  • 对于small update,每个binary_diff占用一项,前面提到过一个Lob更新可能包含多个binary diff, 因此每个binary diff都顺序记录到undo log中
  • 而对于一个binary diff,其记录的是数据的修改,但落到数据页上可能横跨两个lob page,这就涉及到最多两个lob index entry,其事务信息同样需要记录下来(lob::get_affected_index_entries)

更新记录

在写完undo之后,需要去更新索引记录,对于Lob列,调用函数 lob::update

  • 当修改的数据长度小于100字节时,走replace_inline(), 即直接修改对应的lob page
  • 否则,调用lob::replace(), 产生新版本的lob page

相关堆栈

lob::update()
|--> replace()
|--> first_page_t::replace_inline()
|--> data_page_t::replace_inline()

Read

根据worklog的描述,新的多去LOB多版本的逻辑变成了如下 (quoted from wl#11328):

1. Let clust_rec point to the latest clustered index record.
2. Using rollptr obtain the undo log record.
3. Construct the update vector from undo log record. 
   Save the update vector (in a queue) related to BLOBs for later use.
4. Using clust_rec and update vector, build older version of clustered
   index record.
5. Let clust_rec point to this version of clustered index record.
6. Check if clust_rec is the version needed.
   If yes, goto (7), otherwise goto (2).
7. Now fetch the BLOBs for clust_rec. Apply the update vectors matching
   the LOB version from the queue.

简而言之,主要是两个步骤:

  1. 从Undo log里读取binary diff信息,并产生update vector
trx_undo_prev_version_build
|-->trx_undo_update_rec_get_update
    |-->trx_undo_read_blob_update

这一步会将读到的数据存到一个lob::undo_vers_t

  1. 如果获得了正确的版本,在返回数据前,将update vector 应用到获得的记录中
row_sel_store_mysql_field_func
|-->lob::undo_vers_t::apply()
    |-->lob::undo_seq_t::apply()
        |-->lob::undo_data_t::apply()

Reference

WL#11328: InnoDB: Optimizing Small Changes to BLOBs
Partial update of JSON values
MySQL 8.0: InnoDB Introduces LOB Index For Faster Updates
MySQL 8.0: New Storage Format for Compressed BLOBs

相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
存储 关系型数据库 MySQL
MySQL数据库进阶第六篇(InnoDB引擎架构,事务原理,MVCC)
MySQL数据库进阶第六篇(InnoDB引擎架构,事务原理,MVCC)
|
12天前
|
SQL Java 关系型数据库
MYSQL--JDBC优化
MYSQL--JDBC优化
|
7天前
|
SQL 缓存 关系型数据库
MySQL慢查询优化实践问答
MySQL慢查询优化实践问答
|
11天前
|
缓存 关系型数据库 MySQL
如何优化MySQL 8.0的性能?
【6月更文挑战第14天】如何优化MySQL 8.0的性能?
42 5
|
9天前
|
关系型数据库 MySQL 数据库
mysql索引优化
【6月更文挑战第16天】mysql索引优化
13 2
|
11天前
|
SQL JSON 关系型数据库
MySQL 8.0新特性?
【6月更文挑战第14天】MySQL 8.0新特性?
17 1
|
13天前
|
缓存 监控 关系型数据库
mysql优化
【6月更文挑战第12天】mysql优化
21 3
|
4天前
|
存储 关系型数据库 MySQL
索引的威力--记一次MySQL存储过程优化
在MySQL存储过程中,一个`INSERT INTO SELECT`语句起初执行超过130秒,优化后,执行时间降低到1秒内,实现了100倍的性能提升。问题在于`NOT IN`子查询导致的慢查询,最终通过创建单列索引获得了最佳效果。文章还介绍了索引创建的基本语法,并讨论了单列索引与组合索引的优缺点。作者强调,随着数据量增加,索引对于查询性能的重要性,计划未来采用读写分离来进一步优化处理大量插入和查询的场景。
|
11天前
|
存储 关系型数据库 MySQL
【MySQL技术内幕】2.6-InnoDB关键特性
【MySQL技术内幕】2.6-InnoDB关键特性
17 0
|
2天前
|
存储 关系型数据库 MySQL

相关产品

  • 云数据库 RDS MySQL 版