运维

首页 标签 运维
# 运维 #
关注
37873内容
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,帮助用户全面掌握SQL使用情况,实现精细化管理与性能优化,提升日志分析效率与体验。
生产环境缺陷管理
git-poison基于go-git实现分布式bug追溯管理,解决多分支开发中bug漏修、漏发等协同难题。通过“投毒-解毒-银针”机制,自动化卡点发布流程,降低沟通成本,避免人为失误,已在大型团队落地应用,显著提升发布安全与效率。
一场FullGC故障排查
本文通过一次JDOS容器CPU使用率达104%的告警,深入排查发现系Full GC频繁触发所致。结合JVM监控与堆内存分析工具JProfiler,定位到因将大Excel样本加载为List<Map>导致堆内存膨胀,进而引发Full GC。进一步分析显示HashMap存储效率低是主因,空间利用率不足18%。最终提出“激进治疗”(移出JVM内存)与“保守治疗”(精简字段)两类解决方案,并总结了从现象到本质的完整排查思路,强调关注JVM而非仅机器监控的重要性。
Redis:内存陡增100%深度复盘
一次Redis崩溃事故复盘:大KEY导致带宽占满,内存被缓冲区耗尽,虽有淘汰策略但无法挽救。根本原因非数据膨胀,而是输出/输入缓冲区激增,挤占内存,叠加主线程阻塞,最终引发雪崩。需警惕缓冲区风险,规范使用Redis。
13 | 优雅关闭:如何避免服务停机带来的业务损失?
本文深入探讨RPC服务关闭流程中的关键问题,提出通过优雅关闭机制实现无损上下线。核心思路包括:利用进程信号捕获关闭事件、设置请求挡板返回特定异常、主动通知调用方下线节点、结合引用计数器等待处理中请求完成,并设置超时保障退出。最终确保服务重启时不引发调用方业务异常,提升系统稳定性与运维效率。
24丨如何在线上环境里兼容多种 RPC 协议?
本文探讨了在复杂线上环境中如何兼容多种RPC协议。由于历史原因,企业常存在多套RPC框架并行的问题,导致维护成本高、升级困难。为实现平滑演进,可通过支持多协议共存的方式,在不中断服务的前提下逐步迁移。关键在于利用协议的magic number识别类型,并统一转换为与协议无关的内部对象,使核心逻辑解耦。最终不仅降低升级风险,也为未来扩展奠定基础,提升系统可维护性与灵活性。
09 | 健康检测:这个节点都挂了,为啥还要疯狂发请求?
本文深入探讨RPC框架中的服务健康检测机制,针对超大规模集群下节点状态感知难题,提出“推拉结合,以拉为准”的核心思路。通过分析真实线上故障,揭示传统心跳机制在判断“半死不活”节点时的局限性,并引入基于业务请求可用率的动态评估方案,提升服务可用性。文章还对比汽车中控反馈系统,类比设计多维度健康检测模型,涵盖连接状态、心跳响应与业务成功率,最终实现更精准的节点筛选与容错控制,保障分布式系统的稳定运行。
物理部署图
物理部署图从运维视角展示系统运行时的硬件配置与软件部署结构,用于理解分布式系统。包含节点、构件、物件、连接和框架五大元素,描述应用如何在硬件上部署及相互协作,是实现开发与运维协同的重要工具。
物理部署图
物理部署图描述系统运行时的硬件配置与软件部署结构,展现节点、构件、物件及连接关系,帮助理解分布式系统的网络架构与运维部署,常用于指导应用与硬件的集成。
免费试用