本人在阿里云技术中台工作,有多年的系统和应用调试的经验。希望能和大家多多分享源码和汇编调试的技巧。
调试其实不仅仅是针对内核或者进程崩溃的情况,很多时候我们需要跟踪的问题并不是通过分析一个core dump能够解决的,比如类似一些状态信息输出不对,或者内核或程序行为不符合预期。此时我们经常需要依赖于日志,尤其是内核层面的问题。
前后端驱动是虚拟化的重要组成部分,在我们平时的排查过程中,经常会涉及到这部分的数据,特别是与性能相关的问题类型。举个例子,我们经常会碰到网络抖动的问题,此时我们会在实例内部和后端vif口抓包,如果发现两者之间存在延迟,经常我们就会怀疑到前后端的问题。
我们已经看了不少Linux的core dump分析案例了,这次我们来看一个案例,其中利用到了Windows memory dump的分析技巧。Windows的memory dump基本原理几乎和Linux并无太大区别,如果是Crash - 内核崩溃类型的dump,分析思路几乎是完全一致的,当然难度主要在于Windows系统封闭性,即无法提供私有符号和源码,所以多需要一些汇编层面的理解。
这次我们一起来看一下在GDB调试中属于比较典型的案例,因此也借这篇文章向大家阐述个人在分析Core Dump时的一些思路。
Windows系统下磁盘结构层面的数据恢复是一类很有趣的问题,处理这类问题的效果是非常明显,往往会给用户比较神奇的感觉。这次我们就结合实例来谈谈这类问题的处理方法与技巧。首先我们来了解一下磁盘分区的大致结构: 上图是磁盘大致的分区结构。
在接下来的这个系列中我们会以实例来说明Windows系统案例一般如何进行排查,包括一些常见工具的使用以及排查问题的思路。 这次我们遇到的一个有意思的的问题是这样的:用户在云上自建了Windows活动目录(AD),包括一台域控和几台域成员,当用户采用本地账户登录域成员时没有问题,但是当用户使用域账号登录时,登录进行到最后一步显示桌面时,突然自动注销了。
最近在处理了几例Windows迁移上云的问题,问题还是比较有典型性的。分享一下具体的处理方法以及原理。 第一类问题是磁盘引起的,我们的云迁移工具支持迁移系统盘和数据盘。当我们机器上有至少两块磁盘的时候,在迁移之后,有时我们会发现系统在云上有很多奇怪的现象。
这次我主要给大家介绍一下Windows磁盘性能分析的原理和主要参考指标的一些计算方法。
最近有遇到一例比较有趣的Linux下NTP时间同步问题,尝试了使用GDB调试的方法解决,在这里分享一些个人的心得,希望对大家有些帮助。 问题现象:ECS Linux CentOS实例中时间经常出现偏差,客户已经根据官方文档配置了NTP时间同步,同步源为文档中指定的公网NTP服务器:https://help.aliyun.com/knowledge_detail/40583.html 尝试调整一些同步频率的参数,并没有实际效果。