不可思议的一致性读场景

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS AI 助手,专业版
简介: 不可思议的一致性读场景

偶尔会被问到,老叶你上课是不是很简单,只要一份教材在手就可以反复讲很多年,甚至会问,你上课是不是只要照着念PPT就行?

我呸,都什么年代了,怎么还有这种想法。哪怕是在应试教育著称的中小学里,也是每个学期都要更新备课材料的,怎么可能一份教案讲一辈子,无非是中小学的课程内容变化没那么快。在以知识更新日新月异的IT行业,居然还有人抱着这种思想,简直了。

抱怨归抱怨,今天我要说一个在上课过程中被同学们问倒(是真的把我问倒了)的一个案例。

先交代下运行环境:

# MySQL版本:8.0.17 under MacOS
[root@yejr.me]>\s
mysql  Ver 8.0.17 for macos10.14 on x86_64 (MySQL Community Server - GPL)
Connection id:      19
...
Server version:     8.0.17 MySQL Community Server - GPL
# 事务隔离级别:RR
[root@yejr.me]> select @@transaction_isolation;
+-------------------------+
| @@transaction_isolation |
+-------------------------+
| REPEATABLE-READ         |
+-------------------------+
# 测试表结构及数据
[root@yejr.me]> SHOW CREATE TABLE t1\G
**************** 1. row ****************
       Table: t1
Create Table: CREATE TABLE `t1` (
  `c1` int(11) NOT NULL,
  `c2` int(11) DEFAULT NULL,
  `c3` int(11) DEFAULT NULL,
  PRIMARY KEY (`c1`), -- c1列是主键
  KEY `c2` (`c2`)  -- c2列是辅助索引
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
[root@yejr.me]> select * from t1;
+----+------+------+
| c1 | c2   | c3   |
+----+------+------+
|  0 |    0 |    0 |
|  1 |    1 |    1 |
|  2 |    2 |    2 |
|  3 |    3 |    3 |
+----+------+------+

好,表演开始。

session1 session2
begin;
#发起快照读
select * from t1 where c2=2;
...
2 | 2 | 2


begin;
#发起快照读
select * from t1 where c2=2;
...
2 | 2 | 2
#更新后立即提交事务
update t1 set c1=30 where c2=2;
commit;

select * from t1 where c2=2;
...
30 | 2 | 2


#再读一次,确认保持一致性
select * from t1 where c2=2;
...
2 | 2 | 2

#再来一次当前读
select * from t1 where c2=2 for update;
...
30 | 2 | 2

#恢复快照读
select * from t1 where c2=2;
...
2 | 2 | 2

#更新数据
update t1 set c1=c1+1 where c2=2;
...
Rows matched: 1 Changed: 1 Warnings: 0

#更新完毕后读取
select * from t1 where c2=2;
...
2 | 2 | 2
31 | 2 | 2
#神奇的一幕发生了,可以看到新旧两条记录

#提交事务后再读取
commit;
select * from t1 where c2=2;
...
31 | 2 | 2
#这次正常了,只能看到最新版本的数据

好,表演结束。相信看完后,你跟我的第一反应都是“握了个草,为毛会这样,这不科学”,可事实上的确如此,我再三测试了几次,都确认是这样的结果。后来我请教了下InnoDB核心开发者之一苏斌老师(苏斌老师之前在知数堂做过一次公开课分享,主题是 MySQL 8.0 InnoDB新特性)。一开始他也觉得这个案例不太可思议,后来经过查阅确认,认为这是符合一致性读的规则,看文档的解释:

A consistent read means that InnoDB uses multi-versioning to present to
a query a snapshot of the database at a point in time.
The query sees the changes made by transactions that committed before that
point of time, and no changes made by later or uncommitted transactions.
# 注意从这段开始的说明
The exception to this rule is that the query sees the changes made by earlier
statements within the same transaction.
This exception causes the following anomaly: If you update some rows in a
table, a SELECT sees the latest version of the updated rows, but it might
also see older versions of any rows.
If other sessions simultaneously update the same table, the anomaly means
that you might see the table in a state that never existed in the database.

简言之,上述文档说明了几点:

  1. InnoDB利用MVCC机制保证在事务范围内任意时间点的一致性读需求(也就是:RR级别下,在同一个事务内任意时间点的一致性读,总是能读取到同样的数据)
  2. RR级别下,是在发起第一个SELECT(不包含SELECT ... FOR UPDATE/FOR SHARE这种加锁读,以后另起一篇说这个事)时,创建的快照,因此能读取到在此之前已经提交的事务数据,在本事务之后修改的事务数据是看不到的
  3. 上述第2条规则的一个例外场景时,能读取到在本事务内自己修改的数据。因此当在事务内更新完一条记录后发起SELECT可以读取到更新后的数据,同时也可能读取到旧版本的数据

在本案例中,由于两个session都是直接更新主键列,又由于InnoDB引擎的特殊性,主键列会被选择作为聚集索引。对InnoDB主键的更新是不能inplace的,需要新创建一条记录。因此对主键索引的更新时,相当于此时同一条记录在表内有两个版本,一个是更新前(该版本后续会被删除),一个是更新后的,然后等待提交。在session2中,第一次SELECT后创建了一个快照版本 [2,2,2],而后的当前读可以读取到最新数据 [30,2,2],因为sesison1已经提交,不会被阻塞。而session2中的更新,会在当前读的基础上进行更新,所以更新后的版本是 [31,2,2],更新完毕后又再次进行一致性读,此时就可以看到新旧两个版本的数据了(因为旧版本对本事务而言,还在快照里)。本案例给我们的几点启示是

  1. 当你想更新一条记录时,最好一开始就对其先加锁(SELECT ... FOR UPDATE),而后再在事务中进行更新,这样就可以避免被其他session给更新了。虽然一开始就加锁可能会造成更多的锁等待和死锁概率,但为了数据一致性,也必须如此了。或者,可以把事务隔离级别降为RC,这样每次SELECT总能看到已提交的最新版本
  2. 永远”不要更新主键列
  3. 想要做到第2点,就需要让主键列“只用作主键”,不具备业务属性,也即是我们一直强调的一个开发规范“每个InnoDB表都要有一个自增整型列做主键,且该列没有业务用途

不知道我这样解释清楚了没有。InnoDB的这种做法,看起来像是合理的,但仔细想想又好像不太合理,我去提了个bug(#96205),但被拒了,囧...

Enjoy MySQL :)

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
3天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
8096 36
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
3天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
464 2
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
3天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
533 4
|
3天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
689 149
|
3天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
1912 10
|
3天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1316 2
|
3天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
3天前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1180 1
|
3天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
634 1
|
3天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1340 4