秒杀场景下如何保证数据一致性?就这个问题我给出了最详细的方案

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 本文主要讨论秒杀场景的解决方案。什么是秒杀?从字面意思理解,所谓秒杀,就是在极短时间内,大量的请求涌入,处理不当时容易出现服务崩溃或数据不一致等问题的高并发场景。常见的秒杀场景有淘宝双十一、网约车司机抢单、12306抢票等等。

本文主要讨论秒杀场景的解决方案。

什么是秒杀?

从字面意思理解,所谓秒杀,就是在极短时间内,大量的请求涌入,处理不当时容易出现服务崩溃或数据不一致等问题的高并发场景。

常见的秒杀场景有淘宝双十一、网约车司机抢单、12306抢票等等。

高并发场景下秒杀超卖Bug复现

在这里准备了一个商品秒杀的小案例,

1.按照正常的逻辑编写代码,请求进来先查库存,库存大于0时扣减库存,然后执行其他订单逻辑业务代码;

/**
 * 商品秒杀
 */
@Service
public class GoodsOrderServiceImpl implements OrderService {
    @Autowired
    private GoodsDao goodsDao;
    @Autowired
    private OrderDao orderDao;
    /**
     * 下单
     *
     * @param goodsId 商品ID
     * @param userId  用户ID
     * @return
     */
    @Override
    public boolean grab(int goodsId, int userId) {
        // 查询库存
        int stock = goodsDao.selectStock(goodsId);
        try {
            // 这里睡2秒是为了模拟等并发都来到这,模拟真实大量请求涌入
            Thread.sleep(2000);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        // 库存大于0,扣件库存,保存订单
        if (stock > 0) {
            goodsDao.updateStock(goodsId, stock - 1);
            orderDao.insert(goodsId, userId);
            return true;
        }
        return false;
    }
}
@Service("grabNoLockService")
public class GrabNoLockServiceImpl implements GrabService {
    @Autowired
    OrderService orderService;
    /**
     * 无锁的抢购逻辑
     *
     * @param goodsId
     * @param userId
     * @return
     */
    @Override
    public String grabOrder(int goodsId, int userId) {
        try {
            System.out.println("用户:" + userId + " 执行抢购逻辑");
            boolean b = orderService.grab(goodsId, userId);
            if (b) {
                System.out.println("用户:" + userId + " 抢购成功");
            } else {
                System.out.println("用户:" + userId + " 抢购失败");
            }
        } finally {
        }
        return null;
    }
}

2.库存设置为2个;

3.使用jmeter开10个线程压测。

  • 压测结果

库存剩余: 1

抢购订单: 10

出问题了!出大问题了!!

本来有两个库存,现在还剩一个,而秒杀成功的却有10个,出现了严重的超卖问题!

问题分析:

问题其实很简单,当秒杀开始,10个请求同时进来,同时去查库存,发现库存=2,然后都去扣减库存,把库存变为1,秒杀成功,共卖出商品10件,库存减1。

那么怎么解决这个问题呢,说起来也挺简单,加锁就行了。

单机模式下的解决方案

加JVM锁

首先在单机模式下,服务只有一个,加JVM锁就OK,synchronized和Lock都可。

@Service("grabJvmLockService")
public class GrabJvmLockServiceImpl implements GrabService {
    @Autowired
    OrderService orderService;
    /**
     * JVM锁的抢购逻辑
     *
     * @param goodsId
     * @param userId
     * @return
     */
    @Override
    public String grabOrder(int goodsId, int userId) {
        String lock = (goodsId + "");
        synchronized (lock.intern()) {
            try {
                System.out.println("用户:" + userId + " 执行抢购逻辑");
                boolean b = orderService.grab(goodsId, userId);
                if (b) {
                    System.out.println("用户:" + userId + " 抢购成功");
                } else {
                    System.out.println("用户:" + userId + " 抢购失败");
                }
            } finally {
            }
        }
        return null;
    }
}

这里以synchronized为例,加锁之后恢复库存重新压测,结果:

  • 压测结果

库存剩余: 0

抢购订单: 2

大功告成!

JVM锁在集群模式下还有效果吗?

单机模式下的问题解决了,那么在集群模式下,加JVM级别的锁还有效吗?

这里起了两个服务,并且加了一层网关,用来做负载均衡,重新压测,

  • 压测结果

库存剩余: 0

抢购订单: 4

答案是显而易见的,锁无效!!

集群模式下的解决方案

问题分析:

出现这种问题的原因是,JVM级别的锁在两个服务中是不同的两把锁,两个服务各拿个的,各卖各的,不具有互斥性。

那怎么办呢?也好办,把锁独立出来就好了,让两个服务去拿同一把锁,也就是分布式锁

分布式锁:

分布式锁是控制分布式系统之间同步访问共享资源的一种方式。

在分布式系统中,常常需要协调他们的动作。如果不同的系统或是同一个系统的不同主机之间共享了一个或一组资源,那么访问这些资源的时候,往往需要互斥来防止彼此干扰来保证一致性,这个时候,便需要使用到分布式锁。

常见的分布式锁的实现方式有MySQL、Redis、Zookeeper等。

分布式锁--MySQL:

MySQL实现锁的方案是:准备一张表作为锁,

  • 加锁时将要抢购的商品ID作为主键或者唯一索引插入作为锁的表中,这样其他线程来加锁时就会插入失败,从而保证互斥性;
  • 解锁时将这条记录删除,其他线程可以继续加锁。

按照上面的方案,编写的部分代码:

/**
 * MySQL写的分布式锁
 */
@Service
@Data
public class MysqlLock implements Lock {
    @Autowired
    private GoodsLockDao goodsLockDao;
    private ThreadLocal<GoodsLock> goodsLockThreadLocal;
    @Override
    public void lock() {
        // 1、尝试加锁
        if (tryLock()) {
            System.out.println("尝试加锁");
            return;
        }
        // 2.休眠
        try {
            Thread.sleep(10);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        // 3.递归再次调用
        lock();
    }
    /**
     * 非阻塞式加锁,成功,就成功,失败就失败。直接返回
     */
    @Override
    public boolean tryLock() {
        try {
            GoodsLock goodsLock = goodsLockThreadLocal.get();
            goodsLockDao.insert(goodsLock);
            System.out.println("加锁对象:" + goodsLockThreadLocal.get());
            return true;
        } catch (Exception e) {
            return false;
        }
    }
    @Override
    public void unlock() {
        goodsLockDao.delete(goodsLockThreadLocal.get().getGoodsId());
        System.out.println("解锁对象:" + goodsLockThreadLocal.get());
        goodsLockThreadLocal.remove();
    }
    @Override
    public void lockInterruptibly() throws InterruptedException {
        // TODO Auto-generated method stub
    }
    @Override
    public boolean tryLock(long time, TimeUnit unit) throws InterruptedException {
        // TODO Auto-generated method stub
        return false;
    }
    @Override
    public Condition newCondition() {
        // TODO Auto-generated method stub
        return null;
    }
}
  • 抢购逻辑
@Service("grabMysqlLockService")
public class GrabMysqlLockServiceImpl implements GrabService {
    @Autowired
    private MysqlLock lock;
    @Autowired
    OrderService orderService;
    ThreadLocal<GoodsLock> goodsLock = new ThreadLocal<>();
    @Override
    public String grabOrder(int goodsId, int userId) {
        // 生成key
        GoodsLock gl = new GoodsLock();
        gl.setGoodsId(goodsId);
        gl.setUserId(userId);
        goodsLock.set(gl);
        lock.setGoodsLockThreadLocal(goodsLock);
        // lock
        lock.lock();
        // 执行业务
        try {
            System.out.println("用户:"+userId+" 执行抢购逻辑");
            boolean b = orderService.grab(goodsId, userId);
            if(b) {
                System.out.println("用户:"+userId+" 抢购成功");
            }else {
                System.out.println("用户:"+userId+" 抢购失败");
            }
        } finally {
            // 释放锁
            lock.unlock();
        }
        return null;
    }
}

恢复库存后继续压测,结果符合预期,数据一致。

  • 压测结果

剩余库存:0

抢购成功:2

问题与解决方案:

  1. 由于突然断网等原因,导致锁没有释放成功怎么办?

:在作为锁的表中加开始时间结束时间两个字段作为锁的有效期,由于各种原因导致锁没有及时释放时,可以根据有效期进行判断锁是否有效。

  1. 给锁加了有效期后,若有效期结束,线程任务还没有执行完毕怎么办?

:可以引入watch dog机制,在任务未执行结束前,给锁续期,这个在后面再详细解释。

分布式锁--Redis:

在一些中小型项目中可以使用MySQL方案,在大型项目中,给MySQL的配置加上去也可以使用,但用得最多的还是Redis。

Redis加锁的实现方式是使用setnx命令,格式:setnx key value。

setnx是「set if not exists」的缩写;若key不存在,则将key的值设置为value;当key存在时,不做任何操作。

  • 加锁:setnx key value
  • 解锁:del key

Redis分布式锁--死锁问题

产生原因

已经加锁的服务在执行过程中挂掉了,没有来得及释放锁,锁一直存在在Redis中,导致其他服务无法加锁。

解决方案

设置key的过期时间,让key自动过期,过期后,key就不存在了,其他服务就能继续加锁。

  • 要注意的是,添加过期时间时,不能使用这种方式:
setnx key value;
expire key time_in_second;

这种方式也可能在第一句setnx成功后挂掉,过期时间没有设置,导致死锁。

  • 有效的方案是通过一行命令加锁并设置过期时间,格式如下:
set key value nx ex time_in_second;

这种方式在 Redis 2.6.12 版本开始支持,老版本的Redis可以使用LuaScript。

过期时间引发的问题

问题一:假设锁过期时间设置为10秒,服务1加锁后执行10秒还未结束,此时锁过期了,服务2来加锁也能成功,导致两个服务同时拿到锁。

问题二:服务1在执行了14秒后结束去释放锁,会把服务2加的锁释放掉,此时服务3又能加锁成功。

解决方案:

问题二容易解决,在释放锁的时候判断一下是不是自己加的锁,如果是自己加的锁,就释放;如果不是则略过。

问题一解决方案:就是上面说的 Watch Dog(看门狗)机制

简单的理解就是另起一个子线程(看门狗),帮主线程看着过期时间,当主线程在执行业务逻辑没有结束时,过期时间每过三分之一,子线程(看门狗)就把过期时间续满,从而保证主线程没有结束,锁就不会过期。

  • Watch Dog(看门狗)机制的实现
@Service
public class RenewGrabLockServiceImpl implements RenewGrabLockService {
    @Autowired
    private RedisTemplate<String, String> redisTemplate;
    @Override
    @Async
    public void renewLock(String key, String value, int time) {
        System.out.println("续命"+key+"  "+value);
        String v = redisTemplate.opsForValue().get(key);
        // 写成死循环,加判断
        if (StringUtils.isNotBlank(v) && v.equals(value)){
            int sleepTime = time / 3;
            try {
                Thread.sleep(sleepTime * 1000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            redisTemplate.expire(key,time,TimeUnit.SECONDS);
            renewLock(key,value,time);
        }
    }

Redis单节点故障:

如果执行过程中Redis挂掉了,所有服务来加锁都加不上锁,这就是单节点故障问题。

解决方案:

使用多台Redis。

首先来分析一个问题,多台Redis之间可以做主从吗?

Redis主从问题:

当一个线程加锁成功后,key还没有被同步过去,Redis Master节点挂了,此时Slave节点中没有key的存在,另一个服务来加锁依然可以加锁成功。

所以,不能使用主从方案。

还有一种方案是红锁

红锁:

红锁方案也是使用多台Redis,但是多台Redis之间没有任何关系,就是独立的Redis。

加锁时,在一台Redis上加锁成功后,马上去下一台Redis上加锁,最终若在过半的Redis上加锁成功,则加锁成功,否则加锁失败。

红锁会不会出现超卖问题?

会!。

如果运维小哥很勤快,做了自动化,Redis挂掉之后,马上重启了一台,那么重启的Redis里没有之前加锁的key,其他线程依然能够加锁成功,这就导致两个线程同时拿到锁。

  • 解决方案:延迟重启挂掉的Redis,延迟一天启动也没有问题,重启太快才会有问题。

终极问题:

到现在为止程序已经完美了吗?

并没有!

当程序在执行的时候,锁也加上了,狗(watch dog)也开始不停地续期,一切看似很美好,但是Java里还有一个终极问题--STW(Stop The World)。

当遇到FullGC时,JVM会发生STW(Stop The World),此时,世界被按下了暂停键,执行任务的主线程暂停了,用来续期的狗(watch dog)也不会再续期,Redis中的锁会慢慢过期,当锁过期之后,其他JVM又可以来成功加锁,原来的问题又出现了,同时有两个服务拿到锁。

解决方案:

  • 方案一: 鸵鸟算法
  • 方案二: 终极方案 -- Zookeeper+MySQL乐观锁

分布式锁--Zookeeper+MySQL乐观锁

Zookeeper是怎么解决STW问题的呢?

  • 加锁时,在zookeeper中创建一个临时顺序节点,创建成功后zookeeper会生成一个序号,将这个序号存到MySQL中的verson字段做校验; 如果锁未释放,发生了STW,紧接着锁过期,其他服务去加锁后,会将MySQL中的version字段变掉;
  • 解锁时,验证version字段是否是自己加锁时的内容 如果是,删除节点,释放锁; 如果不是,说明自己已经昏睡过了,执行失败。

世界变得清静了。

相关代码

  • gitee: distributed-lock
  • 本文就是愿天堂没有BUG给大家分享的内容,大家有收获的话可以分享下,想学习更多的话可以到微信公众号里找我,我等你哦。
相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore &nbsp; &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
3月前
|
消息中间件 存储 C#
分布式事务之最终一致性实现方案
分布式事务之最终一致性实现方案
81 0
|
4月前
|
消息中间件 算法
分布式篇问题之“最终一致性”问题如何解决
分布式篇问题之“最终一致性”问题如何解决
|
4月前
|
消息中间件
分布式篇问题之通过本地消息表实现分布式事务的最终一致性问题如何解决
分布式篇问题之通过本地消息表实现分布式事务的最终一致性问题如何解决
201 0
|
5月前
|
canal 缓存 关系型数据库
高并发场景下,6种方案,保证缓存和数据库的最终一致性!
在解决缓存一致性的过程中,有多种途径可以保证缓存的最终一致性,应该根据场景来设计合适的方案,读多写少的场景下,可以选择采用“Cache-Aside结合消费数据库日志做补偿”的方案,写多的场景下,可以选择采用“Write-Through结合分布式锁”的方案,写多的极端场景下,可以选择采用“Write-Behind”的方案。
1306 0
|
6月前
|
SQL 缓存 关系型数据库
秒杀系统之一致性
秒杀系统之一致性
97 0
|
11月前
|
消息中间件 缓存 Java
虾皮一面:如何保证数据双写一致?
虾皮一面:如何保证数据双写一致?
88 1
|
SQL 负载均衡 NoSQL
【防止重复下单】分布式系统接口幂等性实现方案
【防止重复下单】分布式系统接口幂等性实现方案
1755 0
【防止重复下单】分布式系统接口幂等性实现方案
|
存储 消息中间件 SQL
浅谈高并发和分布式系统的幂等如何处理
幂等是一个数学与计算机学概念,在数学中某一元运算为幂等时,其作用在任一元素两次后会和其作用一次的结果相同。 在计算机中编程中,一个幂等操作的特点是其任意多次执行所产生的影响均与一次执行的影响相同。 幂等函数或幂等方法是指可以使用相同参数重复执行,并能获得相同结果的函数。这些函数不会影响系统状态,也不用担心重复执行会对系统造成改变。
|
消息中间件 缓存 NoSQL
redis缓存一致性问题 & 秒杀场景下的实战分析
本篇文章讲述了在高并发场景下 redis缓存一致性问题 & 秒杀场景下的实战分析, 数据库缓存不一致解决方案, 缓存与数据库双写一致以及秒杀场景下缓存一致性问题的实战解决方案
602 0
|
消息中间件 缓存 网络协议
如何通过事务消息保障抢购业务的分布式一致性?
作者:山猎,阿里云解决方案架构师
208 0
如何通过事务消息保障抢购业务的分布式一致性?