要我说，多线程事务它必须就是个伪命题！（上）

2022-04-27 205

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 要我说，多线程事务它必须就是个伪命题！（上）

别问，问就是不行

分布式事务你应该是知道的。但是这个多线程事务......

没事，我慢慢给你说。

如图所示，有个小伙伴想要实现多线程事务。

这个需求其实我在不同的地方看到过很多次，所以我才说：这个问题又出现了。

那么有解决方案吗？

在此之前，我的回答都是非常的肯定：毋庸置疑，肯定是没有的。

为什么呢？

我们先从理论上去推理一下。

来，首先我问你，事务的特性是什么？

这个不难吧？八股文必背内容之一，ACID 必须张口就来：

原子性（Atomicity）
一致性（Consistency）
隔离性（Isolation）
持久性（Durability）

那么问题又来了，你觉得如果有多线程事务，那么我们破坏了哪个特性？

多线程事务你也别想的多深奥，你就想，两个不同的用户各自发起了一个下单请求，这个请求对应的后台实现逻辑中是有事务存在的。

这不就是多线程事务吗？

这种场景下你没有想过怎么分别去控制两个用户的事务操作吧？

因为这两个操作之间就是完全隔离的，各自拿着各自的链接玩儿。

所以多个事务之间的最基本的原则是什么？

隔离性。两个事务操作之间不应该相互干扰。

而多线程事务想要实现的是 A 线程异常了。A，B 线程的事务一起回滚。

事务的特性里面就卡的死死的。所以，多线程事务从理论上就是行不通的。

通过理论指导实践，那么多线程事务的代码也就是写不出来的。

前面说到隔离性。那么请问，Spring 的源码里面，对于事务的隔离性是如何保证的呢？

答案就是 ThreadLocal。

在事务开启的时候，把当前的链接保存在了 ThreadLocal 里面，从而保证了多线程之间的隔离性：

可以看到，这个 resource 对象是一个 ThreadLocal 对象。

在下面这个方法中进行了赋值操作：

org.springframework.jdbc.datasource.DataSourceTransactionManager#doBegin

其中的 bindResource 方法中，就是把当前链接绑定到当前线程中，其中的 resource 就是我们刚刚说的 ThreadLocal：

就是每个线程里面都各自玩自己的，我们不可能打破 ThreadLocal 的使用规则，让各个线程共享同一个 ThreadLocal 吧？

铁子，你要是这样去做的话，那岂不是走远了？

所以，无论从理论上，还是代码实现上，我都认为这个需求是不能实现的。

至少我之前是这样想的。

但是事情，稍稍的发生了一点点的变化。

说个场景，常规实现

任何脱离场景讨论技术实现的行为都是耍流氓。

所以，我们先看一下场景是什么。

假设我们有一个大数据系统，每天指定时间，我们就需要从大数据系统中拉取 50w 条数据，对数据进行一个清洗操作，然后把数据保存到我们业务系统的数据库中。

对于业务系统而言，这 50w 条数据，必须全部落库，差一条都不行。要么就是一条都不插入。

在这个过程中，不会去调用其他的外部接口，也不会有其他的流程去操作这个表的数据。

既然说到一条不差了，那么对于大家直观而言，想到的肯定是两个解决方案：

for 循环中一条条的事务插入。
直接一条语句批量插入。

对于这种需求，开启事务，然后在 for 循环中一条条的插入可以说是非常 low 的解决方案了。

效率非常的低下，给大家演示一下。

比如，我们有一个 Student 表，表结构非常简单，如下：

这种情况下，我们可以通过下面的链接，模拟插入指定数量的数据：

http://127.0.0.1:8081/insertOneByOne?num=xxx

我尝试了把 num 设置为 50w，让它慢慢的跑着，但是我还是太年轻了，等了非常长的时间都没有等到结果。

于是我把 num 改为了 5000，运行结果如下：

insertOneByOne执行耗时:133449ms,num=5000

一条条的插入 5000 条数据，耗时 133.5 s 的样子。

按照这个速度，插入 50w 条数据得 13350s，大概也是这么多小时：

这谁顶得住啊。

所以，这方案拥有巨大的优化空间。

比如我们优化为这样批量插入：

其对应的 sql 语句是这样的：

insert into table ([列名],[列名]) VALUES ([列值],[列值]), ([列值],[列值]);

我们还是通过前端接口调用：

当我们的 num 设置为 5000 的时候，我页面刷新了 10 次，你看耗时基本上在 200ms 毫秒以内：

从 133.5s 到 200ms，朋友们，这是什么东西？

这是质的飞跃啊。性能提升了近 667 倍的样子。

为什么批量插入能有这么大的飞跃呢？

你想啊，之前 for 循环插入，虽然 SpringBoot 2.0 默认使用了 HikariPool，连接池里面默认给你搞 10 个连接。

但是你只需要一个连接，开启一次事务。这个不耗时。

耗时的地方是你 5000 次 IO 呀。

所以，耗时长是必然的。

而批量插入只是一条 sql 语句，所以只需要一个连接，还不需要开启事务。

为啥不用开启事务？

你一条 sql 开启事务有锤子用啊？

那么，如果我们一口气插入 50w 条数据，会是怎么样的呢？

来，搞一波，试一下：

http://127.0.0.1:8081/insertBatch?num=500000

说你这个包太大了。可以通过设置 max_allowed_packet 来改变包大小。

我们可以通过下面的语句查询当前的配置大小：

select @@max_allowed_packet;

要我说，多线程事务它必须就是个伪命题！（上）

别问，问就是不行

说个场景，常规实现

热门文章

最新文章

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

要我说，多线程事务它必须就是个伪命题！（上）

别问，问就是不行

说个场景，常规实现

热门文章

最新文章

相关电子书

相关实验场景