又又又生产一个线上问题,并解决,为居家办公增加kpi

本文涉及的产品
应用型负载均衡 ALB,每月750个小时 15LCU
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 居家办公如何体现产出,来学学吧。

背景

因公司有服务被恶意请求攻击导致服务瘫痪,为此要接入腾讯云的waf 功能,为核心接口进行保护,防止恶意频繁的访问导致服务无法正常提供服务(心想,这不是应该团队自己实现的吗?不管了,一算一年也不到2k,反正是公司出钱,加就完事儿了)

reqeust流程

解释下现有公司服务流程,当然是简化版的,为了描述此次问题,实际架构还是听负载的。

image.png

image.png

正式修改

本地修改hosts 后,测了各个域名下,比较核心的接口,都能正常访问,约定了尽快切1/2的流量到CLB 服务上。因为运维周末加班,运维兄弟是真苦啊,同时试用期的我想表现下,在周日运维兄弟找到我要切流量的时候,信誓旦旦的回话说可以,并关注线上业务是否有问题。

出事儿了

周日晚上还在打lol的我,被反馈说,登录功能有问题,我慌了。手足无措,因为就是一个请求的路径上加了一台代理服务器转发请求而已,怎么能影响到业务呢?也没有及时停止解析,无法登录的问题还在继续,没办法,就先停了CLB的解析,好了,能登录了。我一定要知道到底是为啥不能登录。

从sls 上搜索到的无法登录的用户日志,返回的结果显示是session不正确。项目比较久远了,解释下登录流程;

image.png

分析问题

从表层的代码来看,session是没有做共享的,想着觉得可能是clb 服务器接入后导致请求没有打入到同一台机器,运维也提供nginx上设置了iphash能让同一个client ip的请求继续请求到同一台服务。接着搜了成功功登录的日志,发现同一个用户调用接口1 ,2,3 打到的服务并不是同一台,刚升起的希望之火又灭了。好好康康代码,代码中有一套业务实现的存储session的逻辑,可登录并没有用,很茫然。已经是半夜1点了,看到有说tomcat 配置可以进行session 共享的案例,就给运维同学留言看下配置,以为找到了答案暂时休息了。

第二天运维反馈服务是jar包部署,没有tomcat配置,我恍然spring boot项目,咋可能部署在tomcat里呢。运维同学又反馈说,因为服务是k8s的,导致nginx 的iphash是不生效的,服务端是有做session共享的。继续搜索session共享的案例,结果找到了spring session 这个成熟的框架,一看我们服务也确实在用,那这个session 失效就无法解释了啊。

发现华点

因为只有安卓设备如此,居家办公手边的华为摔坏了,无法进行抓包验证。捅咕了好半天虚拟机,后抓包发现,在配置了clb 解析的两次接口连续请求connection是变化的,如图

image.png

image.png

而不加clb解析成功登录的连续请求connection 则是不变的

image.png

image.png

这也就是说连续的两个请求不是使用的同一个connection 导致获取不到session 中的内容,导致请求中断了。

完美谢幕

运维又反馈,clb中配置的负载均衡规则是加权轮询,这导致同一个client 可能经过clb后被分发到不同的nginx ,后端服务自然不能保证第二个接口拿到上一次请求生成的session,找到腾讯云的客服咨询了下,看了官方文档,确实如此,在修改clb 的负载均衡规则后,本地测试登录功能已经ok,了了一桩心事。

总结

此次问题出现原因,一是对接入功能的掉以轻心,导致没有对完全的流程进行测试,不过项目接口实在过于多且功能不一,也无法一一走全。二就是经验还是稍有欠缺,对request从客户端到服务端的流程有欠缺。不过这次也学到了很多东西,负载均衡策略,session共享实现方案,尤其是srping session 加个注解就能实现共享,框架真是解放双手啊。

大家加油!!!!

相关实践学习
SLB负载均衡实践
本场景通过使用阿里云负载均衡 SLB 以及对负载均衡 SLB 后端服务器 ECS 的权重进行修改,快速解决服务器响应速度慢的问题
负载均衡入门与产品使用指南
负载均衡(Server Load Balancer)是对多台云服务器进行流量分发的负载均衡服务,可以通过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用性。 本课程主要介绍负载均衡的相关技术以及阿里云负载均衡产品的使用方法。
相关文章
|
7天前
|
存储 数据采集 监控
生产进度掉链子,别慌!运用点晴模切ERP打造智能工厂!
在制造业的生产过程中,生产进度就像一条紧密相连的链条,环环相扣。一旦某个环节出现问题,就可能导致整个生产链条“掉链子”,影响产品交付和企业效益。
26 8
|
监控 物联网 大数据
城市智慧停车系统方案的产品设计体系介绍
最近几年随着大数据技术快速发展与应用,智慧城市随即被正式提出。而且,我们也可以深刻感受到“智慧”正在慢慢改变我们的生活方式和城市。要让城市变智慧的地方太多太多,当前我们接触做多的可能就是外出停车,比如很多商场的停车系统,很多商城的停车场都实现了无人值守。这就是得益于智慧城市停车云平台
6000 0
|
数据采集 存储 监控
汽车产线生产管控实操
通过阿里云工业物联生产管控平台,快速实现产线设备数据采集、存储、组态交付、反馈控制和指标定义及工艺优化。
|
1月前
|
安全 算法 数据可视化
工厂人员定位管理系统:提升生产效率、保障作业安全
在智能制造与工业4.0背景下,工厂人员定位管理系统成为提升生产效率和保障作业安全的关键工具。本文详解该系统的核心功能,包括实时定位、历史轨迹回放、巡更打卡、离岗警告及超员/超时提醒,展示其智能化、高效化和安全化的全面优势。通过高精度定位基站与智能算法,系统不仅优化了生产流程,还有效预防了安全事故,助力企业实现高效、智能的生产管理。维小帮提供相关技术文档与专业咨询,助您探索更智能的生产管理之道。
114 11
|
数据可视化 BI
【一键启用】生产跟踪|解决制造企业生产管理难题
生产跟踪是一款适用于离散型生产制造企业实现智能生产管理的模板。针对性解决生产进度无从知晓、任务分工不透明、生产过程管控效率低、各类生产报表统计费时费力等痛点问题。
【一键启用】生产跟踪|解决制造企业生产管理难题
|
9月前
|
JavaScript
点晴ERP生产管理系统,提升模切生产效率的利器
随着信息化时代的到来,企业管理的效率和水平对于模切企业的发展来说至关重要。而点晴模切ERP针对模切企业管理痛点,为模切企业专门研发一整套的信息化解决方案。
107 0
|
7月前
|
监控 数据可视化 调度
ERP系统中的生产排程与生产效率分析解析
【7月更文挑战第25天】 ERP系统中的生产排程与生产效率分析解析
245 0
短视频带货源码,以线上销售达成的长期经营模式
短视频带货源码的出现和应用彻底改变了原本的销售模式,在用户需求的不断刺激下,线上带货规模越来越大,也逐渐形成了线下往线上销售转移、依靠的趋势,在短视频带货源码中,主播的个人光环被放的更大,也因此有越来越多的明星、主播加入带货的行当中,如今再看短视频带货,是否可以说它就是未来经营的模式了呢?
171 0

热门文章

最新文章