Redis分布式锁

简介: 【10月更文挑战第1天】分布式锁用于在多进程环境中保护共享资源,防止并发冲突。通常借助外部系统如Redis或Zookeeper实现。通过`SETNX`命令加锁,并设置过期时间防止死锁。为避免误删他人锁,加锁时附带唯一标识,解锁前验证。面对锁提前过期的问题,可使用守护线程自动续期。在Redis集群中,需考虑主从同步延迟导致的锁丢失问题,Redlock算法可提高锁的可靠性。

分布式锁概念

在多线程的程序里,为了避免同时操作一个共享变量产生数据问题,会加一个互斥锁,以确保共享变量的正确性,使用范围是同一个进程

那如果是多个进程,需要同时操作一个共享资源,如何互斥呢?

比如,现在的业务基本上都是微服务架构,一个应用会部署多个进程,这多个进程需要修改MySQL的同一行记录时,就需要引入分布式锁来解决这个问题了。

要实现分布式锁,需要借助一个外部系统,所有的进程都去这个系统上申请加锁,而这个外部系统必须要实现互斥的能力,换言之,如果有两个请求同时进来,也只会给一个进程返回成功,另一个返回失败或等待。

这个外部系统可以是MySQL、Redis或Zookeeper,一般使用Redis或ZK

如何实现

可以使用SETNX命令,表示SET IF NOT EXISTS,也就是当Key不存在的时候才会设置他的值。

比如,客户端1申请加锁,加锁成功;

127.0.0.1:6379> SETNX lock 1
(integer) 1

客户端2申请加锁,因为到达的比客户端1晚,加锁失败。

127.0.0.2:6379> SETNX lock 1
(integer) 0

此时,加锁成功的客户端,就可以去操作共享资源,例如,修改MySQL的某一行数据,或是调用一个API请求。

操作完成后,还要释放锁,这样后续的客户端才能继续操作共享资源。

释放锁可以通过DEL 命令删除这个key

以上是分布式锁最简单的实现,存在一个很大的问题,如果客户端1拿到锁以后,没有释放锁,就会造成死锁。没有释放锁的原因有以下几个:

  1. 程序处理业务逻辑异常,没有及时释放锁

  2. 整个进程挂了/宕机,没有办法去释放锁

如何避免死锁

那么如何解决上述的问题呢?比较容易想到的方案是:申请锁的时候,给锁设置一个租期

对于刚刚的Redis实现,就是给这个Key设置一个过期时间

比如

127.0.0.1:6379> SETNX lock 1 // 加锁
(integer) 1
127.0.0.1:6379> EXPIRE lock 10 // 10s后自动过期
(integer) 1

这样如果客户端异常的话,这个锁在10秒后会被自动释放,其他客户端依旧可以拿到锁

这样还是有问题,刚刚的操作里,加锁、设置过期时间这是2条命令,有可能执行完第一条,第二条来不及执行,比如:

  • 执行第二条语句时因为网络问题,执行失败

  • Redis异常宕机,第二条没时间执行

  • 客户端异常崩溃/退出,第二条命令没机会执行

如果这两条命令不能保证原子操作,就有潜在的风险导致过期时间设置失败,依旧会发生死锁。

Redis 2.6.12以后,只需要使用 SET lock 1 EX 10 NX就可以了

接下来分析下还有没有别的问题?

假设这样一种场景:

  1. 客户端1加锁成功,开始操作共享资源

  2. 客户端1操作共享资源的时间,超过了锁的过期时间,锁被自动释放

  3. 客户端2加锁成功,开始操作共享资源

  4. 客户端1操作共享资源完成,释放锁(注意这里的锁是客户端2刚刚加的锁

这里有两个很严重的问题:

  • 锁过期:客户端1操作共享资源耗时太久,导致锁被自动释放,之后客户端2加锁

  • 释放别人的锁:客户端1操作共享资源后,释放了客户端2的锁

第一个问题,可能是我们评估共享资源的时间不准确导致的。

简单的解决方案就是增大冗余时间,比如10秒过期,但是操作共享资源的时间最慢是15秒,那我就设置过期时间为20秒。但是这样没法根本解决问题,预估的时间只是大致计算,并不能预估到所有增加耗时的场景,比如程序内部发生异常、网络请求超时、异常耗时增加等。

第二个问题,一个客户端释放了其他客户端持有的锁

导致这个问题的原因是 每个客户端在释放锁的时候,没有检查这个锁是不是自己加上的

如何解决锁被别人释放的问题

客户端在加锁的时候,设置一个只有自己知道的唯一标识进去,可以是自己的主机名字、线程ID等,也可以是一个UUID

127.0.0.1:6379> SET lock $uuid EX 20 NX
OK

之后释放锁的时候,需要检查以下

if redis.get("lock") == $uuid:
redis.del("lock")

这里又是一个原子操作,可以写成lua脚本,让Redis来执行

if redis.call("GET",KEYS[1]) == ARGV[1]
then
    return redis.call("DEL",KEYS[1])
else
    return 0
end

这样,整个加锁和解锁的过程就比较严谨了,大概流程如下:

  1. 加锁:SET lock $uuid EX 10 NX

  2. 操作共享资源

  3. 释放锁:lua脚本

不好评估锁过期时间怎么办

前面还有一个遗留问题就是,锁会有提前过期的风险

简单的方案就是尽量冗余过期时间,降低锁提前过期的概率。但是这个方案并不能完美解决问题。

比较主流的方案是,加锁的时候,先设置一个过期时间,同时开启一个守护线程,定时去检测这个锁的失效时间,如果锁快过期了,但是操作共享资源还未完成,自动对锁进行续期,重新设置过期时间。

JavaRedisson库已经把这部分封装好了,看门狗线程

分布式场景

之前分析的场景都是,锁在单个Redis实例中可能会产生的问题,并没有考虑Redis的部署架构细节

但实际上在使用Redis的时候,都是采用主从集群+哨兵的模式部署,当主库异常宕机的时候,哨兵可以进行故障自动切换,把从库提升为主库,继续提供服务,来保证可用性。

假设这样一个场景:

  • 客户端1在主库上加锁成功

  • 主库宕机,SET命令还未同步到从库上(这里是因为主从同步是异步的

  • 哨兵把从库提升为主库,这个锁在新的主库上就丢失了

当引入Redis副本后,分布式锁还是可能受影响,为此,Redis的作者提出一种解决方案,就是Redlock 红锁

目录
相关文章
|
2天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1519 4
|
29天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
5天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
503 19
|
2天前
|
存储 SQL 关系型数据库
彻底搞懂InnoDB的MVCC多版本并发控制
本文详细介绍了InnoDB存储引擎中的两种并发控制方法:MVCC(多版本并发控制)和LBCC(基于锁的并发控制)。MVCC通过记录版本信息和使用快照读取机制,实现了高并发下的读写操作,而LBCC则通过加锁机制控制并发访问。文章深入探讨了MVCC的工作原理,包括插入、删除、修改流程及查询过程中的快照读取机制。通过多个案例演示了不同隔离级别下MVCC的具体表现,并解释了事务ID的分配和管理方式。最后,对比了四种隔离级别的性能特点,帮助读者理解如何根据具体需求选择合适的隔离级别以优化数据库性能。
179 1
|
8天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
21天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
9天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
457 5
|
7天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
314 2
|
23天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
25天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2608 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析