《企业运维之云上网络原理与实践》——第六章 云服务与总结——云服务与总结(4) https://developer.aliyun.com/article/1230316?groupCode=supportservice
三、 问题排查方法论
1. Drill-Down Analysis Method-从错误本身逐层剖析
细节决定成败,这种方法就是对问题现象深挖到底,实施起来需要多个领域的专业知识,非常有挑战性。
• Start at highest level,通常从应用报错日志开始;
• Examine next-level details,从应用层、容器网络层、内核层、虚拟化层逐层怀疑;
• Pick most interesting breakdown,排查可疑的现象;
• If problem unsolved,go to 2,如果问题没有解决则再回到第二步。
优点
• 通过逐层排查,可以清晰而细致的剖析问题。
缺点
• 排查依赖于异常复现,需要排查人员对各领域有丰富的经验;
• 容易困在一个很小的点里,而忽视全局。
2. Tools Method - 从外围监控入手
成大事者不拘小节,这种方法是从整个系统监控指标看问题,而不只限于错误消息。
• 首先应有怀疑的方向,并了解对应方向的工具;
• 了解工具暴露的哪些指标可以佐证自己的怀疑;
• 明确指标的含义;
• 执行选择的工具并说明指标的含义Run selected tools and interpret selected metrics。
缺点
• 如果是偶现的、或历史的异常,监控指标可能不全;
• 生产环境需要部署大量的监控软件,适用场景有限。
四、 回顾本期训练营
本期《企业运维训练营之云上网络原理与实践》主要讲解了三部分内容:阿里云云网络的发展、云上网络产品、以及问题排查的方法论和工具。
阿里云云网络发展历经四个阶段,从经典网络到安全隔离的专有网络VPC,进而通过云企业网进入全球互联,最后到5G/IOT的万物互联。
云上网络产品主要介绍了VPC、负载均衡CLB和ALB、NAT、EIP、CEN和Privatelink。
问题排查方法主要推荐两种,从错误本身出发和从外围监控出发,两种方法各有利弊,视根据具体情况选择。
问题排查工具主要有:mtr/traceroute/winmtr/tracert、ping、Wireshark等等。