长连接的心跳及重连设计(上)

简介: 什么场景下需要心跳呢?目前我们接触到的大多是一些基于长连接的应用需要心跳来“保活”。由于在长连接的场景下,客户端和服务端并不是一直处于通信状态,如果双方长期没有沟通则双方都不清楚对方目前的状态;所以需要发送一段很小的报文告诉对方“我还活着”。同时还有另外几个目的:服务端检测到某个客户端迟迟没有心跳过来可以主动关闭通道,让它下线。客户端检测到某个服务端迟迟没有响应心跳也能重连获取一个新的连接。

心跳实现方式


心跳其实有两种实现方式:


  • TCP 协议实现(keepalive 机制)。


  • 应用层自己实现。


由于 TCP 协议过于底层,对于开发者来说维护性、灵活度都比较差同时还依赖于操作系统。


所以我们这里所讨论的都是应用层的实现。



如上图所示,在应用层通常是由客户端发送一个心跳包 ping 到服务端,服务端收到后响应一个 pong 表明双方都活得好好的。


一旦其中一端延迟 N 个时间窗口没有收到消息则进行不同的处理。


客户端自动重连


先拿客户端来说吧,每隔一段时间客户端向服务端发送一个心跳包,同时收到服务端的响应。


常规的实现应当是:


  • 开启一个定时任务,定期发送心跳包。


  • 收到服务端响应后更新本地时间。


  • 再有一个定时任务定期检测这个“本地时间”是否超过阈值。


  • 超过后则认为服务端出现故障,需要重连。


这样确实也能实现心跳,但并不友好。


在正常的客户端和服务端通信的情况下,定时任务依然会发送心跳包;这样就显得没有意义,有些多余。


所以理想的情况应当是客户端收到的写消息空闲时才发送这个心跳包去确认服务端是否健在。


好消息是 Netty 已经为我们考虑到了这点,自带了一个开箱即用的 IdleStateHandler 专门用于心跳处理。


来看看 cim 中的实现:



pipeline 中加入了一个 10秒没有收到写消息的 IdleStateHandler,到时他会回调 ChannelInboundHandler 中的 userEventTriggered 方法。



所以一旦写超时就立马向服务端发送一个心跳(做的更完善应当在心跳发送失败后有一定的重试次数);


这样也就只有在空闲时候才会发送心跳包。


但一旦间隔许久没有收到服务端响应进行重连的逻辑应当写在哪里呢?


先来看这个示例:


当收到服务端响应的 pong 消息时,就在当前 Channel 上记录一个时间,也就是说后续可以在定时任务中取出这个时间和当前时间的差额来判断是否超过阈值。


超过则重连。



同时在每次心跳时候都用当前时间和之前服务端响应绑定到 Channel 上的时间相减判断是否需要重连即可。


也就是  heartBeatHandler.process(ctx); 的执行逻辑。


伪代码如下:


@Override
public void process(ChannelHandlerContext ctx) throws Exception {
    long heartBeatTime = appConfiguration.getHeartBeatTime() * 1000;
    Long lastReadTime = NettyAttrUtil.getReaderTime(ctx.channel());
    long now = System.currentTimeMillis();
    if (lastReadTime != null && now - lastReadTime > heartBeatTime){
        reconnect();
    }
}


IdleStateHandler 误区


一切看起来也没毛病,但实际上却没有这样实现重连逻辑。


最主要的问题还是对 IdleStateHandler 理解有误。


我们假设下面的场景:


  1. 客户端通过登录连上了服务端并保持长连接,一切正常的情况下双方各发心跳包保持连接。


  1. 这时服务端突入出现 down 机,那么理想情况下应当是客户端迟迟没有收到服务端的响应从而 userEventTriggered 执行定时任务。


  1. 判断当前时间 - UpdateWriteTime > 阈值 时进行重连。


但却事与愿违,并不会执行 2、3两步。


因为一旦服务端 down 机、或者是与客户端的网络断开则会回调客户端的 channelInactive 事件。


IdleStateHandler 作为一个 ChannelInbound 也重写了 channelInactive() 方法。



这里的 destroy() 方法会把之前开启的定时任务都给取消掉。


所以就不会再有任何的定时任务执行了,也就不会有机会执行这个重连业务


相关文章
|
12月前
|
人工智能 缓存 JavaScript
通义灵码深度体验:AI编程助手如何提升全栈开发效率
通义灵码是一款强大的AI编程助手,支持从代码补全到智能体自主开发的全流程辅助。在React+Node.js项目中,其实现了100%字段匹配的Mongoose Schema生成;通过`@灵码`指令,30秒内完成天气查询CLI工具开发,包含依赖管理与文档编写。其上下文记忆能力可自动关联模块逻辑,如为商品模型扩展库存校验。集成MCP服务时,不仅生成基础代码,还推荐最佳实践并添加缓存优化。测试显示,其响应速度快、复杂任务准确率高,适合中小型项目快速迭代,初期开发效率提升约40%。尽管存在文档同步延迟和TypeScript支持不足的问题,仍是一款优秀的AI编程伙伴。
690 7
|
JSON 前端开发 应用服务中间件
跨域请求(CORS)如何解决?
CORS 全称为(Cross-Origin Resource Sharing:跨站资源共享),跨域请求是由于浏览器的同源策略(Same-Origin Policy)引起的,那么 CORS 的产生和浏览器的同源策略有关系,我们先了解什么是同源策略。
|
XML Java 数据库连接
Spring中的事务是如何实现的
Spring中的事务管理机制通过一系列强大的功能和灵活的配置选项,为开发者提供了高效且可靠的事务处理手段。无论是通过注解还是AOP配置,Spring都能轻松实现复杂的事务管理需求。掌握这些工具和最佳实践,能
662 3
|
监控 数据可视化 项目管理
WBS元素是什么?在项目管理中的作用与类型定义
工作分解结构(WBS)是项目管理中的重要工具,用于将复杂项目分解为更小、更易管理的任务或工作包。本文介绍了WBS的概念、特点、核心目标及其在项目管理中的作用,包括项目范围定义、任务分配、进度管理、预算控制和风险管理等方面。同时,文章还探讨了几种常见的WBS类型,如交付物导向型、阶段导向型、功能导向型和混合型WBS,并提供了创建有效WBS的步骤建议。最后,推荐了几款实用的项目管理工具,帮助团队更高效地管理和执行项目。
1972 7
|
算法 安全 Java
重学操作系统----17 | 进程和线程:进程的开销比线程大在了哪里?
进程(Process),顾名思义就是正在执行的应用程序,是软件的执行副本。而线程是轻量级的进程。
493 0
|
Web App开发 安全 前端开发
Chrome DevTools攻略
Chrome DevTools攻略
|
tengine 网络协议 Linux
关于长连接服务器和客户端之间要加入心跳的一些讨论
关于长连接服务器和客户端之间要加入心跳的一些讨论
|
消息中间件 Java uml
5张图带你理解 RocketMQ 顺序消息实现机制
5张图带你理解 RocketMQ 顺序消息实现机制
1238 1
5张图带你理解 RocketMQ 顺序消息实现机制
|
关系型数据库 MySQL 网络安全
navicat远程连接数据库遇到的问题 10060 unknown error
navicat远程连接数据库遇到的问题 10060 unknown error
1992 1
navicat远程连接数据库遇到的问题 10060 unknown error

热门文章

最新文章