大key把出口流量打满,导致请求超时

简介: 大key把出口流量打满,导致请求超时

故障现象和故障定级:12月02日15:00-17:00期间,用户在AA系统中操作时偶发操作失败,请求报错的情况。内部定级为P4级故障

故障原因:为了提升查询速度,每刻使用了redis缓存服务,该缓存服务器在12月02日15:00-17:00期间出现了几次

服务器出口流量达到上限的情况,达到上限后,超出的部分请求失败了。

处理过程:收到报错反馈后,开发和测试人员排查监控发现了redis的性能瓶颈,随即联系运维人员先尝试对redis规格进行升级,但在购买钉钉云的更高规格的服务器时,提示“该地区缺货”,导致没有在第一时间完成升级,问题持续了一段时间后自动恢复了,我们在当晚采取了另外的策略,将该redis服务器上的部分缓存迁移到了其他服务上来分流压力,通过第二天的观察并未再出现问题,且后来在钉钉云服务器到货后我们也升级了规格,目前负载情况处于健康水平。

故障分析复盘和后续方案

1.修改了redis报警规则,由原来的连续出现多次使用率85%的才进行告警改为出现一次即告警,这样可以在更早的时间发现问题。

相关文章
|
前端开发 JavaScript 数据可视化
推荐! 使用react-cropper-pro实现图片裁切压缩上传
推荐! 使用react-cropper-pro实现图片裁切压缩上传
706 0
|
5月前
|
存储 弹性计算 运维
阿里云轻量应用服务器和云服务器区别——ECS和轻量如何选择?
阿里云轻量应用服务器简化易用,适合个人及轻量场景;ECS功能强大、弹性灵活,适用于企业级复杂业务。根据需求选择:轻量型选SWAS,高性能选ECS。
|
3月前
|
前端开发 机器人 UED
前端开发 -- 自动回复机器人【附完整源码】
本项目实现了一个简单的网页聊天界面,用户可以在输入框中输入消息,并点击发送按钮或按下回车键来发送消息。机器人会根据用户发送的消息内容,通过关键字匹配来生成自动回复
298 3
|
5月前
|
机器学习/深度学习 人工智能 运维
AI 应用的开发流程
AI应用开发融合SDLC流程,但更强调数据驱动与迭代演进。涵盖需求评估、数据准备(占60%+时间)、模型开发(Prompt/RAG/微调或传统训练)、多维评估、部署集成及LLMOps持续运维。分大模型Agent与传统ML两条路径。
|
前端开发 算法 JavaScript
React项目input输入框输入自动失去焦点
本文讨论了在React项目中如何处理input输入框自动失去焦点的问题,特别是在移动端开发中。文章提供了一个使用React Native的TouchableWithoutFeedback组件来监听点击事件,并在事件处理函数中通过调用Keyboard.dismiss()方法使输入框失去焦点的示例代码。这种方法可以确保在用户点击页面其他区域时,键盘能够收起,输入框失去焦点。
629 1
React项目input输入框输入自动失去焦点
|
机器学习/深度学习 人工智能 算法
dlib
【6月更文挑战第19天】
655 3
|
缓存 运维 负载均衡
服务端高并发分布式架构演进之路
高并发分布式架构与淘宝14次架构演进
1680 5
服务端高并发分布式架构演进之路
|
XML JavaScript 前端开发
谈谈JS二进制:File、Blob、FileReader、ArrayBuffer、Base64(上)
谈谈JS二进制:File、Blob、FileReader、ArrayBuffer、Base64(上)
493 0