来自阿里云售后技术团队,系统专家,专注操作系统调试,内核调试。
一般来说,我们可以把排查问题的技术分成三层。底下是理论知识,上边是问题模式【注释1】,夹在理论知识和问题模式之间的是工具。而贯穿排查技术的是“用数据说话”。今天这篇文章,跟大家分享一例我与客户"用数据说话"的故事。
排查不一样的问题,往往会有不一样的难点。有的问题难在重现,但只要能重现一次,那么问题就会迎刃而解;有的问题难在调试,比如排查一个刷卡机内的SD卡,通过数据线连接到电脑上出现文件系统不可见的问题。这可能需要研究刷卡机嵌入式操作系统,和桌面操作系统的文件系统,存储系统,以及设备管理三层的实现,才能最终定位到问题。
宕机问题有一种比较少见的pattern,就是看起来完全不相关的机器同时出现宕机。处理这个pattern的问题,我们需要找到,在这些机器上能同时触发问题的条件。 通常,这些机器要么几乎在同一时间点出现问题,要么从某一个时间点开始,相继出现问题。
闲里偷忙
大家好,今天跟大家分享一例有趣的问题。问题的有趣之处,在于它稍微有点曲折。处理这类问题,我们需要不断的提出一个个小的问题,然后通过解决这些小问题,最后解决原本的问题。