订单超时处理的几种方案及分析

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 描述业务常见的订单超时处理的几种方案及分析

背景

在企业的商业活动中,订单是指交易双方的产品或服务交易意向。交易下单负责创建这个交易双方的产品或服务交易意向,有了这个意向后,买方可以付款,卖方可以发货。

在电商场景下,买卖双方没有面对面交易,许多情况下需要通过超时处理自动关闭订单,下面是一个订单的流程:

image.png

如上图所示,一个订单流程中有许多环节要用到超时处理,包括但不限于:

  • 买家超时未付款:比如超过15分钟没有支付,订单自动取消。
  • 商家超时未发货:比如商家超过1个月没发货,订单自动取消。
  • 买家超时未收货:比如商家发货后,买家没有在14天内点击确认收货,则系统默认自动收货。


1. JDK自带的延时队列

JDK中提供了一种延迟队列数据结构DelayQueue,其本质是封装了PriorityQueue,可以把元素进行排序。

  1. 把订单插入DelayQueue中,以超时时间作为排序条件,将订单按照超时时间从小到大排序。
  2. 起一个线程不停轮询队列的头部,如果订单的超时时间到了,就出队进行超时处理,并更新订单状态到数据库中。
  3. 为了防止机器重启导致内存中的DelayQueue数据丢失,每次机器启动的时候,需要从数据库中初始化未结束的订单,加入到DelayQueue中。


  • 优点:简单,不需要借助其他第三方组件,成本低。
  • 缺点:
  • 所有超时处理订单都要加入到DelayQueue中,占用内存大。
  • 没法做到分布式处理,只能在集群中选一台leader专门处理,效率低。
  • 不适合订单量比较大的场景。


2. RabbitMQ的延时消息

RabbitMQ的延时消息主要有两个解决方案:

  • RabbitMQ Delayed Message Plugin
  • 消息的TTL+死信Exchange

RabbitMQ Delayed Message Plugin是官方提供的延时消息插件,虽然使用起来比较方便,但是不是高可用的,如果节点挂了会导致消息丢失。引用官网原文:

Delayed messages are stored in a Mnesia table (also see Limitations below) with a single disk replica on the current node. They will survive a node restart. While timer(s) that triggered scheduled delivery are not persisted, it will be re-initialised during plugin activation on node start. Obviously, only having one copy of a scheduled message in a cluster means that losing that node or disabling the plugin on it will lose the messages residing on that node.


消息的TTL+死信Exchange解决方案,先要了解两个概念

  • TTL:即消息的存活时间。RabbitMQ可以对队列和消息分别设置TTL,如果对队列设置,则队列中所有的消息都具有相同的过期时间。超过了这个时间,我们认为这个消息就死了,称之为死信。
  • 死信Exchange(DLX):一个消息在满足以下条件会进入死信交换机
  • 一个消息被Consumer拒收了,并且reject方法的参数里requeue是false。也就是说不会被再次放在队列里,被其他消费者使用。
  • TTL到期的消息。
  • 队列满了被丢弃的消息。

一个延时消息的流程如下图:

  1. 定义一个BizQueue,用来接收死信消息,并进行业务消费。
  2. 定义一个死信交换机(DLXExchange),绑定BizQueue,接收延时队列的消息,并转发给BizQueue。
  3. 定义一组延时队列DelayQueue_xx,分别配置不同的TTL,用来处理固定延时5s、10s、30s等延时等级,并绑定到DLXExchange。
  4. 定义DelayExchange,用来接收业务发过来的延时消息,并根据延时时间转发到不同的延时队列中。


  • 优点:可以支持海量延时消息,支持分布式处理。
  • 缺点:
  • 不灵活,只能支持固定延时等级。
  • 使用复杂,要配置一堆延时队列。


3. RocketMQ的定时消息

RocketMQ支持任意秒级的定时消息,如下图所示

使用门槛低,只需要在发送消息的时候设置延时时间即可,以java代码为例:

MessageBuildermessageBuilder=null;
LongdeliverTimeStamp=System.currentTimeMillis() +10L*60*1000; //延迟10分钟Messagemessage=messageBuilder.setTopic("topic")
//设置消息索引键,可根据关键字精确查找某条消息。        .setKeys("messageKey")
//设置消息Tag,用于消费端根据指定Tag过滤消息。        .setTag("messageTag")
//设置延时时间        .setDeliveryTimestamp(deliverTimeStamp) 
//消息体        .setBody("messageBody".getBytes())
        .build();
SendReceiptsendReceipt=producer.send(message);
System.out.println(sendReceipt.getMessageId());

RocketMQ的定时消息是如何实现的呢?

在RocketMQ中,使用了经典的时间轮算法。通过TimerWheel来描述时间轮不同的时刻,通过TimerLog来记录不同时刻的消息。

TimerWheel中的每一格代表着一个时刻,同时会有一个firstPos指向这个刻度下所有定时消息的首条TimerLog记录的地址,一个lastPos指向这个刻度下所有定时消息最后一条TimerLog的记录的地址。并且,对于所处于同一个刻度的的消息,其TimerLog会通过prevPos串联成一个链表。

当需要新增一条记录的时候,例如现在我们要新增一个 “1-4”。那么就将新记录的 prevPos 指向当前的 lastPos,即 “1-3”,然后修改 lastPos 指向 “1-4”。这样就将同一个刻度上面的 TimerLog 记录全都串起来了。


  • 优点
  • 精度高,支持任意时刻。
  • 使用门槛低,和使用普通消息一样。
  • 缺点
  • 使用限制:定时时长最大值24小时。
  • 成本高:每个订单需要新增一个定时消息,且不会马上消费,给MQ带来很大的存储成本。
  • 同一个时刻大量消息会导致消息延迟:定时消息的实现逻辑需要先经过定时存储等待触发,定时时间到达后才会被投递给消费者。因此,如果将大量定时消息的定时时间设置为同一时刻,则到达该时刻后会有大量消息同时需要被处理,会造成系统压力过大,导致消息分发延迟,影响定时精度。


4. Redis的过期监听

Redis支持过期监听,也能达到和RocketMQ定时消息一样的能力,具体步骤如下:

  1. redis配置文件开启"notify-keyspace-events Ex"

  1. 监听key的过期回调,以java代码为例
@ConfigurationpublicclassRedisListenerConfig {
@BeanRedisMessageListenerContainercontainer(RedisConnectionFactoryfactory){
RedisMessageListenerContainercontainer=newRedisMessageListenerContainer();
container.setConnectionFactory(factory);
returncontainer;
    }
}
@ComponentpublicclassRedisKeyExpirationListernerextendsKeyExpirationEventMessageListener {
publicRedisKeyExpirationListerner(RedisMessageListenerContainerlistenerContainer) {
super(listenerContainer);
    }
@OverridepublicvoidonMessage(Messagemessage, byte[] pattern) {
StringkeyExpira=message.toString();
System.out.println("监听到key:"+expiredKey+"已过期");
    }
}

使用Redis进行订单超时处理的流程图如下


这个方案表面看起来没问题,但是在实际生产上不推荐,我们来看下Redis过期时间的原理

每当我们对一个key设置了过期时间,Redis就会把该key带上过期时间,存到过期字典中,在redisDb中通过expires字段维护:

typedefstructredisDb {
dict*dict;    /* 维护所有key-value键值对 */dict*expires; /* 过期字典,维护设置失效时间的键 */    ....
} redisDb;

过期字典本质上是一个链表,每个节点的数据结构结构如下:

  • key是一个指针,指向某个键对象。
  • value是一个long long类型的整数,保存了key的过期时间。

Redis主要使用了定期删除和惰性删除策略来进行过期key的删除

  • 定期删除:每隔一段时间(默认100ms)就随机抽取一些设置了过期时间的key,检查其是否过期,如果有过期就删除。之所以这么做,是为了通过限制删除操作的执行时长和频率来减少对cpu的影响。不然每隔100ms就要遍历所有设置过期时间的key,会导致cpu负载太大。
  • 惰性删除:不主动删除过期的key,每次从数据库访问key时,都检测key是否过期,如果过期则删除该key。惰性删除有一个问题,如果这个key已经过期了,但是一直没有被访问,就会一直保存在数据库中。

从以上的原理可以得知,Redis过期删除是不精准的,在订单超时处理的场景下,惰性删除基本上也用不到,无法保证key在过期的时候可以立即删除,更不能保证能立即通知。如果订单量比较大,那么延迟几分钟也是有可能的。

Redis过期通知也是不可靠的,Redis在过期通知的时候,如果应用正好重启了,那么就有可能通知事件就丢了,会导致订单一直无法关闭,有稳定性问题。如果一定要使用Redis过期监听方案,建议再通过定时任务做补偿机制。


5. 定时任务分布式批处理

定时任务分布式批处理解决方案,即通过定时任务不停轮询数据库的订单,将已经超时的订单捞出来,分发给不同的机器分布式处理:

使用定时任务分布式批处理的方案具有如下优势:

  • 稳定性强:基于通知的方案(比如MQ和Redis),比较担心在各种极端情况下导致通知的事件丢了。使用定时任务跑批,只需要保证业务幂等即可,如果这个批次有些订单没有捞出来,或者处理订单的时候应用重启了,下一个批次还是可以捞出来处理,稳定性非常高。
  • 效率高:基于MQ的方案,需要一个订单一个定时消息,consumer处理定时消息的时候也需要一个订单一个订单更新,对数据库tps很高。使用定时任务跑批方案,一次捞出一批订单,处理完了,可以批量更新订单状态,减少数据库的tps。在海量订单处理场景下,批量处理效率最高。
  • 可运维:基于数据库存储,可以很方便的对订单进行修改、暂停、取消等操作,所见即所得。如果业务跑失败了,还可以直接通过sql修改数据库来进行批量运维。
  • 成本低:相对于其他解决方案要借助第三方存储组件,复用数据库的成本大大降低。

但是使用定时任务有个天然的缺点:没法做到精度很高。定时任务的延迟时间,由定时任务的调度周期决定。如果把频率设置很小,就会导致数据库的qps比较高,容易造成数据库压力过大,从而影响线上的正常业务。


所以一般需要抽离出超时中心和超时库来单独做订单的超时调度,在阿里内部,几乎所有的业务都使用基于定时任务分布式批处理的超时中心来做订单超时处理,SLA可以做到30秒以内:


如何让超时中心不同的节点协同工作,拉取不同的数据?

通常的解决方案是借助任务调度系统,开源任务调度系统大多支持分片模型,比较适合做分库分表的轮询,比如一个分片代表一张分表。但是如果分表特别多,分片模型配置起来还是比较麻烦的。另外如果只有一张大表,或者超时中心使用其他的存储,这两个模型就不太适合。


阿里巴巴分布式任务调度系统SchedulerX,不但兼容主流开源任务调度系统和Spring @Scheduled注解,还自研了轻量级MapReduce模型,针对任意异构数据源,简单几行代码就可以实现海量数据秒级别跑批。

  1. 通过实现map函数,通过代码自行构造分片,SchedulerX会将分片平均分给超时中心的不同节点分布式执行

  1. 通过实现reduce函数,可以做聚合,可以判断这次跑批有哪些分片跑失败了,从而通知下游处理

使用SchedulerX定时跑批解决方案,还具有如下优势:

  • 免运维、成本低:不需要自建任务调度系统,由云上托管。
  • 可观测:提供任务执行的历史记录、查看堆栈、日志服务、链路追踪等能力。
  • 高可用:支持同城双活容灾,支持多种渠道的监控报警。
  • 混部:可以托管阿里云的机器,也可以托管非阿里云的机器。


总结

如果对于超时精度比较高,超时时间在24小时内,且不会有峰值压力的场景,推荐使用RocketMQ的定时消息解决方案。

在电商业务下,许多订单超时场景都在24小时以上,对于超时精度没有那么敏感,并且有海量订单需要批处理,推荐使用基于定时任务的跑批解决方案。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
8月前
|
数据采集 存储 监控
淘宝详情数据采集(商品上货,数据分析,属性详情,价格监控),海量数据值得get
淘宝详情数据采集涉及多个环节,包括商品上货、数据分析、属性详情以及价格监控等。在采集这些数据时,尤其是面对海量数据时,需要采取有效的方法和技术来确保数据的准确性和完整性。以下是一些关于淘宝详情数据采集的建议:
|
8月前
|
机器学习/深度学习 JSON 监控
智能定价模型:借助API实时更新商品价格信息
在电子商务的迅猛发展中,价格战成为商家间常见的竞争方式。然而,一成不变的价格策略无法满足市场的即时需求和消费者的多变偏好。因此,智能定价(也称为动态定价)成为了电商平台提升市场竞争力的关键工具。智能定价模型通过实时监控市场数据和消费者行为,自动调整商品价格以最大化收益或实现其他商业目标。本文将深入探讨如何利用API技术实现智能定价,并提供一个Python代码示例来指导读者进行实时价格更新。
|
3月前
|
缓存 监控 API
抖音抖店 API 请求获取宝贝详情数据的调用频率限制如何调整?
抖音抖店API请求获取宝贝详情数据的调用频率受限,需遵循平台规则。开发者可通过提升账号等级、申请更高配额、优化业务逻辑(如缓存数据、异步处理、批量请求)及监控调整等方式来应对。
|
6月前
|
SQL 分布式计算 DataWorks
享受成本分析自由,体验账单数据订阅及查询分析功能
使用DataWorks进行账单数据订阅和查询分析,您可以有效地管理和可视化您的阿里云消费数据。本指南提供了详细步骤和示例,帮助您快速入门实现账单数据的高效分析。
729 9
享受成本分析自由,体验账单数据订阅及查询分析功能
|
6月前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
数据采集 缓存 API
淘宝商品详情数据(实时更新,缓存数据)
淘宝商品详情数据,关键用于电商业务和市场分析,包括属性、价格、库存等信息。可通过淘宝开放平台API注册获取权限,调用如`taobao.item.get`接口,或使用爬虫技术。数据可实时更新,也有缓存选项。注意API权限、数据安全和调用限制。第三方服务也是获取数据的途径,但可能非实时且成本高。有效利用数据支持决策和分析。
|
8月前
|
供应链 监控 搜索推荐
抢占市场先机:利用API商品数据接口激活您的数据资产
在当今数字化驱动的商业环境中,企业需要敏捷地应对市场变化,而实现这一目标的关键就是有效地管理和利用数据资产。本文将详细探讨如何通过API商品数据接口来激活这些资产,并确保您的企业在竞争中始终保持领先。
|
8月前
|
存储 监控 搜索推荐
淘宝源数据商品详情API:解锁电商实时数据,驱动业务增长
在电商行业,数据是驱动业务增长的关键。淘宝作为中国电商市场的主要参与者,其商品详情原数据的API在电商行业中具有显著的重要性。本文将深入探讨这个话题,并介绍如何实现实时数据获取。
|
8月前
|
存储 缓存 API
实时获取化工网商品详情API数据
在当今的信息化时代,数据的获取和分析对于企业的发展至关重要。特别是在化工行业,实时的商品详情数据可以帮助企业快速了解市场动态、制定合理采购策略和进行精准营销。化工网API提供了一种便捷的方式,帮助开发者获取化工商品的实时详情。
|
8月前
|
机器学习/深度学习 分布式计算 数据挖掘
淘宝/天猫店铺商品详情 API 实现实时数据获取:快速、稳定、高效
淘宝/天猫是中国最大的电商平台之一,拥有海量的商品数据。对于商家来说,了解店铺内所有商品的实时信息非常重要,可以帮助他们更好地管理商品、制定营销策略等。本文将介绍如何使用淘宝/天猫的API接口来获取店铺的所有商品信息,并实现实时数据获取。