故障 解决方案(系统性) 列出的目录 待补充

简介:

一个暂时的好方法

比如mysql故障,结合后端应用查看,看对应跑的是什么应用,这很重要。关注业务上去了。




好多东西多需要深入,成为系统性,有思想性的解决方案

故障总结

目录

1.故障分类

2.故障分类的发生的概率

3.跟踪系统调用,接口调用,要求最全的日志

4.针对以上要求,监控出报告

5.解决故障的方法

上代码->监控

5.1测试

dubbo测试,调用测试,循环调用测试

比如几十个接口,跳过接口测试,或者按比例测试

5.2开发

安全调用接口

5.3运维

监控报警没到位,监控不全

1.比如各系统之间的调用

2.比如监控明细和一定程度的报警

尤其是mysql监控,不仅要监控性能,更重要的是一些参数比如连接数和锁表数,mysql表大小

5.4是否早有迹象


具体待补充。

1.数据库故障



本文转自 liqius 51CTO博客,原文链接:http://blog.51cto.com/szgb17/1889675,如需转载请自行联系原作者
相关文章
|
1月前
|
消息中间件 数据采集 运维
一份运维监控的终极秘籍!监控不到位,宕机两行泪
【10月更文挑战第25天】监控指标的采集分为基础监控和业务监控。基础监控涉及CPU、内存、磁盘等硬件和网络信息,而业务监控则关注服务运行状态。常见的监控数据采集方法包括日志、JMX、REST、OpenMetrics等。Google SRE提出的四个黄金指标——错误、延迟、流量和饱和度,为监控提供了重要指导。错误监控关注系统和业务错误;延迟监控关注服务响应时间;流量监控关注系统和服务的访问量;饱和度监控关注服务利用率。这些指标有助于及时发现和定位故障。
157 1
|
4月前
|
监控 Kubernetes 持续交付
持续部署的内涵和实施路径问题之确保持续部署的准确性和可预期性的问题如何解决
持续部署的内涵和实施路径问题之确保持续部署的准确性和可预期性的问题如何解决
|
4月前
|
存储 安全 Unix
揭秘Linux配置之谜:为何重启成常态?动态刷新配置竟成奢望?一场关于系统稳定性与灵活性的较量!
【8月更文挑战第12天】Linux以其卓越性能在各领域广泛应用,但配置更新需重启而非动态刷新。这源于系统架构的静态设计、配置管理机制的局限、安全考量及性能优化需求。配置文件存储于磁盘,改动不自动反映至内存;服务管理依赖systemd等初始化系统,启动时加载配置而不主动监测变更;动态刷新可能引入安全风险;频繁更新配置亦影响性能。开发者可通过信号或IPC机制实现在特定信号下重新加载配置。
58 4
|
4月前
|
测试技术 编译器 持续交付
持续部署的内涵和实施路径问题之集成尽早进行每次集成很小的问题如何解决
持续部署的内涵和实施路径问题之集成尽早进行每次集成很小的问题如何解决
|
4月前
|
物联网 测试技术 持续交付
持续部署的内涵和实施路径问题之持续部署过程中需要控制过程成本并保持高效的问题如何解决
持续部署的内涵和实施路径问题之持续部署过程中需要控制过程成本并保持高效的问题如何解决
|
5月前
|
SQL 监控 测试技术
软件交付问题之项目发布后要关注监控的有效性,如何解决
软件交付问题之项目发布后要关注监控的有效性,如何解决
|
Prometheus 监控 Kubernetes
站点可靠性工程 SRE 最佳实践 -- 黄金监控信号
站点可靠性工程 SRE 最佳实践 -- 黄金监控信号
280 0
|
XML 安全 API
全面复盘Android开发者容易忽视的Backup功能(2)
全面复盘Android开发者容易忽视的Backup功能(2)
全面复盘Android开发者容易忽视的Backup功能(2)
|
安全 Java 测试技术
全面复盘Android开发者容易忽视的Backup功能(1)
全面复盘Android开发者容易忽视的Backup功能(1)
全面复盘Android开发者容易忽视的Backup功能(1)
|
数据采集 移动开发 监控
两把利器,轻松做好十一期间服务器监控保障
由于服务器需要7×24 小时运行,十一期间,为了切实做好服务器的重点保障,电源监控,必不可少。基于成本的考虑,我们决定自己做。如何多快好省,实现一个这样的平台呢?思路是通过服务器自带的远程管理模块读取redfish接口中电源功耗信息,然后采集到时间序列数据库,再通过grafana基于时间和ip做条件筛选做展示。这里就要用到两把开源利器Grafana和Influxdb。
两把利器,轻松做好十一期间服务器监控保障