运维

首页 标签 运维
# 运维 #
关注
37914内容
生产环境缺陷管理
针对大型团队多分支开发中bug管理易遗漏问题,我们基于go-git打造了分布式工具git-poison,实现bug的追溯、查询与发布卡点。通过“投毒-解毒-银针”机制,自动化同步各环节,避免人为疏漏导致的生产故障,降低协同成本,提升发布安全性与效率,已在内部广泛应用并验证有效。
物理部署图
物理部署图描述系统运行时的硬件配置与软件部署结构,展现节点、构件、物件及连接关系,常用于理解分布式系统。通过图示明确应用如何在硬件上部署运行,帮助开发与运维协作,提升系统可维护性与架构清晰度。(239字)
|
8天前
|
一场FullGC故障排查
本文记录了一次Java应用CPU使用率异常升高的排查过程。通过分析发现,问题根源是用户上传的Excel数据被加载为大对象List<Map>结构后长期驻留JVM内存,导致Full GC频繁触发,进而引发CPU占用飙升。借助JProfiler工具定位到内存膨胀的具体对象,并结合代码逻辑提出优化方案:删除无用字段或改用缓存存储,避免大对象堆积。最终总结出一套从现象到本质的完整排查思路,强调需区分机器监控与JVM监控,精准定位性能瓶颈。
XXLJOB:超长定时任务慢节点优化实践
本文针对ODPS大宽表任务运行慢、回刷成本高等问题,通过定位耗时卡点,发现数据倾斜与计算堆积是主因。结合视图落表、节点拆分、前置裁剪、mapjoin与distmapjoin优化等手段,将任务产出时间从13:00提前至8:30,节省超4小时,显著提升效率并降低资源消耗。
Redis:内存陡增100%深度复盘
事故源于大KEY导致带宽占满,触发Redis内存使用率骤增至100%,缓冲区溢出致服务全面超时。根本原因为输出/输入缓冲区内存激增,超出实例容量,阻塞正常请求。虽有淘汰策略,但仅作用于数据内存,无法缓解缓冲区占用问题。最终引发GET/SET全线超时,服务不可用。
XXLJOB:超长定时任务慢节点优化实践
该文针对ODPS大宽表任务运行缓慢问题,通过分析DAG图与耗时节点,定位数据倾斜和计算堆积等核心瓶颈。采用提升资源、加盐打散空值、视图落表、前置裁剪、MapJoin与DistMapJoin优化关联,并拆分节点降低回刷成本。最终产出时间从13:00提前至8:30,节省超4小时,显著提升效率与可维护性。
如何做好SQL质量监控
SLS推出用户级SQL质量监控功能,集成于CloudLens for SLS,提供健康分、服务指标、运行明细、SQL Pattern分析及优化建议五大维度,助力用户全面掌握SQL使用情况,识别高耗业务,优化查询性能与资源管理。
生产环境缺陷管理
针对大型团队多分支开发中bug协同难、易遗漏等问题,我们基于go-git打造了通用型工具git-poison,实现分布式、自动化bug追溯与管理。通过“投毒-解毒-银针”机制,精准阻塞带bug发布,覆盖修复盲区,降低沟通成本,杜绝人为疏漏,已在实际P1故障后验证有效,显著提升发布质量与效率。
物理部署图
物理部署图描述系统运行时的硬件配置与软件部署结构,展现节点、构件、物件及连接关系,帮助理解分布式系统的网络架构与部署方案,是开发与运维协作的重要工具。
生产环境缺陷管理
针对大型团队多分支开发中bug协同难、易漏修漏发等问题,我们基于go-git打造了分布式工具git-poison,实现bug的追溯、查询与发布卡点。通过“投毒-解毒-银针”机制,自动化管理bug修复状态,降低沟通成本,避免因人为疏漏导致的生产故障,已在实际发布流程中多次成功阻断带毒版本,提升发布质量与效率。
免费试用