故障处理方式

简介:

排除故障方法:
1、自顶而下法
2、自底而上法
3、分而治之法
4、跟踪流量路径法 
5、对比配置法
6、组件替换法

大多数采用的工具:
ping 测试链路连通性
traceroute 测试路由可达性,是否缺少路由
telnet 测试服务端口,是否被拒绝


ICMP(Internet 控制消息协议):ICMP被封装在IP数据报内

ping交换机存在间歇性不通现象,undo icmp rate-limit enable 关闭ICMP限速功能

ping 检测硬件层和网络层IP地址(禁止重定向=禁ping)

ICMP指定了多种消息类型,这些消息的共同目的就是管理网络
消息分为:错误消息、请求消息、响应消息
Frame 1155: 74 bytes on wire (592 bits), 74 bytes captured (592 bits) on interface 0
Ethernet II, Src: guangjie-PC.local (e4:d5:3d:a2:64:95), Dst: localhost (c8:3a:35:58:12:c8)
Internet Protocol Version 4, Src: guangjie-PC.local (192.168.0.104), Dst: localhost (192.168.0.1)
Internet Control Message Protocol
    Type: 8 (Echo (ping) request)
    Code: 0
    Checksum: 0x4d57 [correct]
    [Checksum Status: Good]
    Identifier (BE): 1 (0x0001)
    Identifier (LE): 256 (0x0100)
    Sequence number (BE): 4 (0x0004)
    Sequence number (LE): 1024 (0x0400)
    [Response frame: 1156]
    Data (32 bytes)

traceroute 定位源和目的之间的路径故障

1、探测包超时:没有收到探测包 、设备没有开启ICMP
2、强制性禁止:策略拒绝
3、循环跳动:环路引起
telnet 检测源和目的之间的应用层软件


排除故障方式:
1、报告故障 (收集并分析信息)
2、验证故障 (排除潜在可能的故障原因 )
3、定义故障 (验证推断,不是网络层问题)
4、分配故障 (确定责任,提交相应的工程师排查,假设应用层问题)
5、收集故障 (建立故障文档)
6、上报故障 (硬件故障、软件故障、配置差错)

分类——>询问信息——>证实——>上报——>协调——>更新——>报告

定义故障:
1、您所说的故障到底指什么?
2、故障出现之前有无变更操作?
3、故障出现之前是否发现了什么异常?
4、正常工作的最后时间是什么?


物理层
1、设备掉电
2、线缆损坏
3、线缆未连接
4、网口故障
5、连接端口错误
6、收发器故障
7、中间节点问题

8、板卡问题

9、……

数据链路层
1、不正确地配置接口(vlan划分)
2、不正确的封装设置(trunk、PPP)
3、端口故障(速率工作模式不匹配)
4、配置错误引起环路
5、链路聚合端口不一致
6、……

网络层
1、没启用路由器协议
2、启用错误的路由器协议
3、IP地址配置错误
4、子网掩码配置错误
5、网关配置错误
6、未配置路由条目
7、配置路由条目错误
8、认证错误
9、……

传输层
1、添加ACL中的permit
2、未添加ACL中
3、……










本文转自 周小玉 51CTO博客,原文链接:http://blog.51cto.com/maguangjie/1914525,如需转载请自行联系原作者
目录
相关文章
|
SQL 监控 网络协议
线上故障如何快速排查?来看这套技巧大全
有哪些常见的线上故障?如何快速定位问题?本文详细总结工作中的经验,从服务器、Java应用、数据库、Redis、网络和业务六个层面分享线上故障排查的思路和技巧。较长,同学们可收藏后再看。
线上故障如何快速排查?来看这套技巧大全
|
运维 监控 数据库
线上服务故障处理原则
墨菲定律 任何事情都没有表面看起来那么简单 所有事情的发展都会比你预计的时间长 会出错的事情总会出错 如果担心某个事情发生,那么它更有可能发生 墨菲定律暗示我们,如果担心某种情况会发生,那么它更有可能发生,久而久之就一定会发生。
2294 0
|
6月前
|
运维 jenkins Linux
【Jenkins稳定运维】服务器频繁崩溃?资深管理员的应对策略
本文分享了作者作为管理员在面对服务器频繁崩溃时的应对策略,包括使用Shell脚本优化运维工作、学习Jenkins Pipeline插件以及一些运维技能扩展,强调了在运维工作中不断学习和实践的重要性。
82 0
【Jenkins稳定运维】服务器频繁崩溃?资深管理员的应对策略
|
7月前
|
分布式计算 监控 测试技术
建设云上稳定性问题之通过SLB转发和健康检查策略后,系统发布过程中的可用性有何改善
建设云上稳定性问题之通过SLB转发和健康检查策略后,系统发布过程中的可用性有何改善
|
缓存 JSON 运维
如何避免大规模线上故障
如何避免大规模线上故障
235 0
|
运维 NoSQL 容器
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.3.3 故障快恢
264 0
|
UED
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
《云上业务稳定性保障实践白皮书》——三.故障管理体系——3.故障管理全流程——3.1 故障等级定义
1647 0
|
Prometheus 监控 Kubernetes
告别低效繁琐的Prometheus告警管理,Nightingale助你快速响应故障!
Prometheus的告警规则、记录规则都是采用配置文件管理,适合奉行Infrastructure as Code的公司或团队内部使用。但如果要把监控能力开放给全公司,就要支持协同操作的 UI,让各个团队互不干扰的同时共享成果
738 0
|
SQL 缓存 Cloud Native
如何在大促中做好系统高可用
本文就围绕大促来谈谈,如何在非预期的情况下,始终保持我们的系统工作在最优解?
如何在大促中做好系统高可用
|
数据采集 移动开发 监控
两把利器,轻松做好十一期间服务器监控保障
由于服务器需要7×24 小时运行,十一期间,为了切实做好服务器的重点保障,电源监控,必不可少。基于成本的考虑,我们决定自己做。如何多快好省,实现一个这样的平台呢?思路是通过服务器自带的远程管理模块读取redfish接口中电源功耗信息,然后采集到时间序列数据库,再通过grafana基于时间和ip做条件筛选做展示。这里就要用到两把开源利器Grafana和Influxdb。
两把利器,轻松做好十一期间服务器监控保障

热门文章

最新文章