群聊比单聊,为什么复杂这么多?

简介: 群消息的实时性、可达性、离线消息的复杂度,要远高于单对单消息。

群聊是多人社交的基本诉求,一个群友在群内发了一条消息,期望做到:

(1)在线的群友第一时间收到消息;

(2)离线的群友能在登陆后收到消息;

群消息的实时性、可达性、离线消息的复杂度,要远高于单对单消息。

 

常见的群消息流程如何?

群业务的核心数据结构有两个。


群成员表

t_group_users(group_id, user_id)

画外音:用来描述一个群里有多少成员


群离线消息表

t_offine_msgs(user_id, group_id, sender_id,time, msg_id, msg_detail)

画外音:用来描述一个群成员的离线消息。 


业务场景举例:

(1)假设一个群中有x,A,B,C,D共5个成员,成员x发了一个消息;

(2)成员A与B在线,期望实时收到消息;

(3)成员C与D离线,期望未来拉取到离线消息;
image.png

典型群消息投递流程,如图步骤1-4所述:

步骤1:群消息发送者x向server发出群消息;

步骤2:server去db中查询群中有多少用户(x,A,B,C,D);

步骤3:server去cache中查询这些用户的在线状态;

步骤4:对于群中在线的用户A与B,群消息server进行实时推送

步骤5:对于群中离线的用户C与D,群消息server进行离线存储
image.png

典型的群离线消息拉取流程,如图步骤1-3所述:

步骤1:离线消息拉取者C向server拉取群离线消息;

步骤2:server从db中拉取离线消息并返回群用户C;

步骤3:server从db中删除群用户C的群离线消息;

 

那么,问题来了!对于同一份群消息的内容,多个离线用户似乎要存储很多份。假设群中有200个用户离线,离线消息则冗余了200份,这极大的增加了数据库的存储压力。

 

如何优化,减少消息冗余量?

为了减少离线消息的冗余度,增加一个群消息表,用来存储所有群消息的内容,离线消息表只存储用户的群离线消息msg_id,就能大大的降低数据库的冗余存储量。


群消息表

t_group_msgs(group_id, sender_id, time,msg_id, msg_detail)

画外音:用来存储一个群中所有的消息内容


群离线消息表,需要进行优化

t_offine_msgs(user_id, group_id, msg_id)

画外音:优化后只存储msg_id
image.png

这样优化后,群在线消息发送就做了一些修改:

步骤3:每次发送在线群消息之前,要先存储群消息的内容;

步骤6:每次存储离线消息时,只存储msg_id,而不用为每个用户存储msg_detail;
image.png

拉取离线消息时也做了响应的修改:

步骤1:先拉取所有的离线消息msg_id;

步骤3:再根据msg_id拉取msg_detail;

步骤5:删除离线msg_id;

 

优化后的流程,能保证消息的可达性么?例如:

(1)在线消息的投递可能出现消息丢失,例如服务器重启,路由器丢包,客户端crash;

(2)离线消息的拉取也可能出现消息丢失,原因同上;

画外音:单对单消息的可靠投递一样,是通过加入应用层的ACK实现的,群消息呢?

 

群消息,如何通过应用层ACK,保证消息的可靠投递?
image.png

应用层ACK优化后,群在线消息发送又发生了一些变化:

步骤3:在消息msg_detail存储到群消息表后,不管用户是否在线,都先将msg_id存储到离线消息表里;

步骤6:在线的用户A和B收到群消息后,需要增加一个应用层ACK,来标识消息到达;

步骤7:在线的用户A和B在应用层ACK后,将他们的离线消息msg_id删除掉;
image.png

对应到群离线消息的拉取也一样:

步骤1:先拉取msg_id;

步骤3:再拉取msg_detail;

步骤5:最后应用层ACK;

步骤6:server收到应用层ACK才能删除离线消息表里的msg_id;

 

如果拉取了消息,却没来得及应用层ACK,会收到重复的消息么?

似乎会,但可以在客户端去重,对于重复的msg_id,对用户不展现,从而不影响用户体验。


对于离线的每一条消息,虽然只存储了msg_id,但是每个用户的每一条离线消息都将在数据库中保存一条记录,有没有办法减少离线消息的记录数呢?


对于一个群用户,在ta登出后的离线期间内,肯定是所有的群消息都没有收到的,完全不用对所有的每一条离线消息存储一个离线msg_id,而只需要存储最近一条拉取到的离线消息的time(或者msg_id),下次登录时拉取在那之后的所有群消息即可,而完全没有必要存储每个人未拉取到的离线消息msg_id。

 

群成员表,增加一个属性:

t_group_users(group_id, user_id, last_ack_msg_id)

画外音:用来描述一个群里有多少成员,以及每个成员最后一条ack的群消息的msg_id(或者time)。


群消息表不变

t_group_msgs(group_id, sender_id, time,msg_id, msg_detail)

画外音:还是用来存储一个群中所有的消息内容


群离线消息表不再需要
image.png

离线消息表优化后,群在线消息的投递流程:

步骤3:在消息msg_detail存储到群消息表后,不再需要操作离线消息表(优化前需要将msg_id插入离线消息表);

步骤7:在线的用户A和B在应用层ACK后,将last_ack_msg_id更新即可(优化前需要将msg_id从离线消息表删除);
image.png

群离线消息的拉取流程也类似:

步骤1:拉取离线消息;

步骤3:ACK离线消息;

步骤4:更新last_ack_msg_id;

 

加入ACK机制,保证群消息的可靠投递只会,假设1个群有500个用户,“每条”群消息都会变为500个应用层ACK,似乎会对服务器造成巨大的冲击。有没有办法减少ACK请求量呢?

 

批量ACK,是一种常见的,降低请求量的方式

如果每条群消息都ACK,确实会给服务器造成巨大的冲击,为了减少ACK请求量,可以批量ACK,批量ACK的方式又有两种方式:

(1)每收到N条群消息ACK一次,这样请求量就降低为原来的1/N了;

(2)每隔时间间隔T进行一次群消息ACK,也能达到类似的效果;

 

批量ACK有可能导致新的问题:如果还没有来得及ACK群消息,用户就退出了,这样下次登录似乎会拉取到重复的离线消息,怎么办?

客户端按照msg_id去重,不对用户展现,就保证良好的用户体验。


群离线消息过多,拉取过慢,怎么办?

分页拉取(按需拉取),细节就不再展开了,都是常见的优化方案

 

总结

群消息还是非常有意思的,做个简单总结:

(1)不管是群在线消息,还是群离线消息,应用层的ACK是可达性的保障;

(2)群消息只存一份,不用为每个用户存储离线群msg_id,只需存储一个最近ack的群消息id/time;

(3)为了减少消息风暴,可以批量ACK;

(4)如果收到重复消息,需要msg_id去重,让用户无感知;

(5)离线消息过多,可以分页拉取(按需拉取)优化;


思路比结论重要,希望大家有收获。

本文转自“架构师之路”公众号,58沈剑提供。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://www.aliyun.com/product/kubernetes
目录
相关文章
|
JSON 移动开发 Java
氚云丨开发课— 09平台 API 的调用及自定义 API 的编写与调用| 学习笔记
快速学习氚云丨开发课— 09平台 API 的调用及自定义 API 的编写与调用。
|
5月前
|
Linux 网络安全 数据安全/隐私保护
在CentOS 7.9中安装sshpass教程
如果在控制台显示出sshpass的使用方法,那就说明我们的大餐已经准备好,sshpass已经成功安装。 以上就是在 CentOS 7.9 中安装 sshpass 的彩色步骤,专业而生动,就像大厨在厨房一样顺利。
225 8
|
11月前
|
存储 缓存 Linux
【实战指南】用最小堆实现通用的高效定时器组件
本文介绍了如何使用最小堆实现高效的定时器组件,以解决Linux应用开发中定时器资源有限的问题。文章详细描述了最小堆方式的实现原理,包括系统定时器、定时器任务和定时器任务管理三个类的设计与源码实现。测试结果显示,该方法能够准确触发定时任务,有效利用系统资源。总结部分强调了使用最小堆的优势,以及通过抽象类实现清晰的业务逻辑。
384 100
数据结构堆排序中堆的建立、调整、插入、删除等操作的详解(题目讲解 简单易懂)
数据结构堆排序中堆的建立、调整、插入、删除等操作的详解(题目讲解 简单易懂)
797 0
|
存储 Python
python 键错误(KeyError)
【7月更文挑战第20天】
656 2
|
11月前
|
NoSQL Redis 数据库
Redis单线程模型 redis 为什么是单线程?为什么 redis 单线程效率还能那么高,速度还能特别快
本文解释了Redis为什么采用单线程模型,以及为什么Redis单线程模型的效率和速度依然可以非常高,主要原因包括Redis操作主要访问内存、核心操作简单、单线程避免了线程竞争开销,以及使用了IO多路复用机制epoll。
288 0
Redis单线程模型 redis 为什么是单线程?为什么 redis 单线程效率还能那么高,速度还能特别快
|
12月前
|
程序员 数据库 UED
微信也在用的消息时序性技术,你知道多少?
本文由程序员小米撰写,探讨了在个人项目中如何保证消息的时序性。文章详细介绍了消息时序性的概念及其重要性,并提出了三种方案:ID设计(借鉴微信号段与跳跃式生成)、单聊场景下的单点序列化同步,以及群聊场景中的单点序列化处理。此外,还提供了多种优化方法,如消息时序对齐、本地时序记录等,帮助读者更好地解决消息乱序问题。适合所有关心即时通讯和社交应用技术细节的开发者阅读。
272 4
|
机器学习/深度学习 JSON 文字识别
OCR文字识别技术总结(一)
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,经过检测暗、亮的模式肯定其形状,而后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并经过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提升识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也随之产生。
4406 0
OCR文字识别技术总结(一)
|
网络协议 Java 网络安全
详解电子邮件的POP3协议及最小化实现
详解电子邮件的POP3协议及最小化实现
243 5