ECS Windows 系统蓝屏 (BSOD) 以及停止响应 (Hang) 的处理

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 根据阿里云售后支持经验总结的Windows蓝屏 (BSOD, Blue Sceen of Death),以及机器停止响应 (Hang) 这两种业务影响严重类的问题的可能原因、跟进方案、最佳实践。

用户在 Windows 系统上有时会遇到蓝屏 (BSOD, Blue Screen of Death),或者机器停止响应 (Hang)  这两类业务影响严重的问题。Windows 系统蓝屏后,默认配置下机器会自动重启恢复;对于机器停止响应,往往也需要重启作为临时解决方案以快速恢复业务,这都会造成业务的中断。考虑到业务风险,客户需要找出问题的根本原因来避免问题再次发生。但是由于 Windows 蓝屏和停止响应都是技术疑难类问题,需要配置注册表,等待问题复现后收集核心转储 (Kernel Dump) 或 完全内存转储 ( Complete Dump ),花费数天或数周分析,有时甚至还要多次复现才能定位问题根本原因, 处理非常耗时

 

这两类问题虽然表象不同,但原因比较类似。一般与操作系统 bug、驱动或三方软件兼容性、杀毒软件、病毒木马等原因相关。在本篇文章中,我们根据云平台上这两类问题的排查经验,总结了这两类问题的可能原因、跟进方案和最佳实践。


尤其是考虑到这两类问题分析耗时,业务潜在风险高,而通过采用本文提供的最佳实践,可以快速解决大部分的系统蓝屏和停止响应问题,消除业务风险。因此我们强烈建议您在实际运维中,采纳本文最佳实践以便在阿里云 ECS 上更好的使用 Windows 操作系统。

Windows 蓝屏的处理

Windows 操作系统在遇到关键异常的情况下,为了防止数据丢失,系统自动崩溃蓝屏,如果有配置内存转储文件(crash dump) 的收集,系统会自动生成蓝屏存储到指定的目录 (默认文件为 C:\Windows\memory.dmp)。

 

Windows 系统有多种原因导致蓝屏,包括但不限于:

  • 误操作或者病毒引起的系统文件、注册表损坏
  • 驱动程序与操作系统兼容性引起的异常内存访问
  • 操作系统自身 bug
  • 三方杀毒软件驱动异常

 

操作系统在蓝屏的情况下,会抛出对应的 Bugcheck Code 以及可能的导致蓝屏的模块来大概说明问题发生的原因。例如:如下是通过微软notmyfault.exe手工触发蓝屏的结果。

4e662a921b3abc5c7048f7f244a59a700c23fa16

微软官方列举了如下 Bugcheck Code,详细请参考如下链接:

Bug Check Code Reference 

http://msdn.microsoft.com/en-us/library/windows/hardware/ff560129(v=vs.85).aspx

对于用户而言,更重要的是如何处理 Windows 蓝屏,请参考如下跟进方案以及最佳实践。

最佳实践

根据与微软官方的沟通以及日常排查经验,为了防止系统蓝屏的发生以及可能引起的数据丢失,我们建议客户在日常运维中:

<1> 请在 ECS 上启用安骑士防护或其它商业版杀毒防护工具,定期杀毒,定期更新杀毒软件版本,防止病毒或者杀毒软件驱动与操作系统兼容性引起的蓝屏。

<2> 请定期运行 Windows Update,确保微软最新安全更新已经安装。

<3> 请不要将重要数据放在系统盘,建议放在数据盘中。

<4> 对系统盘、数据盘启用自动快照策略,同时在重要变更操作前手工创建系统盘和数据盘快照,以便异常情况下通过快照回滚快速恢复数据。

注:创建自动快照策略

https://help.aliyun.com/document_detail/25456.html

<5> 请在修改系统注册表前备份注册表文件。避免修改系统文件。

跟进方案

如果 Windows ECS 在使用过程中突然断开、无法远程,查看日志发现异常重启的情况,怀疑可能出现过系统蓝屏,请采用如下方法验证:

方法1:打开"事件查看器",打开"系统日志", 在问题发生时间点,如果看到有来源"volmgr"抛出的 ID 46事件,说明之前发生过蓝屏,但是由于没有配置 Paging File 页面文件以及内存转储文件,导致 dump 收集失败。

fb697724d39f11052340b769224e81cb9cc3aef5

 

错误        2016/3/25 0:42:55        volmgr        46        无

故障转储初始化未成功

 

方法2:如果之前有正常配置过蓝屏收集,在系统日志中可以发现事件 ID 41的 Kernel-Power 的关键错误日志,提示系统从意外的关闭中回复以及事件 ID 1001,来源为 Bugcheck 的日志提示系统出现崩溃。

75987b3509cc54212aa4fb726c3c7f6801fc321d

 

由于蓝屏日志的分析非常耗时,考虑到快速恢复业务和避免问题再次发生,我们强烈建议客户在遇到蓝屏机器重启后,采用如下3条来避免潜在的已知问题:

<1> 卸载三方杀毒软件

请注意:禁用杀毒软件的防护功能一般不会消除杀毒软件内核驱动的影响。如果由于安全需求无法卸载三方杀毒软件,请您务必更新杀毒软件到最新版本以消除兼容性问题。

<2> 安全模式下,使用微软 Msert 离线杀毒工具或者三方专业杀毒软件杀毒。

<3> 运行 Windows Update,安装所有更新。

 

Windows 停止响应 (Hang) 的处理

Windows 出现无法响应的现象,包括但不限于:

  • 机器运行一段时间后,无论远程桌面还是管理控制台,背景不变,鼠标无法移动。
  • 用户可以看到密码输入页面,输入密码后,出现白色背景,蓝色背景或者黑色背景,无法登入操作系统。
  • 操作系统仍然在运行,但是无法 ping 通,无法通过网络访问应用。

 

Windows 系统有多种原因导致停止响应,包括但不限于:

  • 病毒影响、三方应用(杀毒软件)引起的兼容性问题。
  • 系统设备驱动程序与操作系统兼容性引起。
  • Windows 操作系统自身 bug。
  • 系统内存核心资源 (Committed Charge, Paged Pool, Non-paged Pool等) 耗尽。
  • 机器启动脚本、登录脚本、组策略应用由于线程死锁等原因导致无法登录。

最佳实践

与系统蓝屏问题处理相同,根据与微软官方的建议以及日常排查经验,为了防止系统停止响应,我们建议客户在日常运维中:

<1> 请在 ECS 上启用安骑士防护或其它商业版杀毒防护工具,定期杀毒,定期更新杀毒软件版本,防止病毒或者杀毒软件驱动与操作系统兼容性引起的系统停止响应。

<2> 请定期运行 Windows Update,确保微软最新安全更新和系统补丁已经安装。

<3> 请不要将重要数据放在系统盘,建议放在数据盘中。

<4> 对系统盘、数据盘启用自动快照策略,同时在重要变更操作前手工创建系统盘和数据盘快照,以便异常情况下通过快照回滚快速恢复数据。

注:创建自动快照策略

https://help.aliyun.com/document_detail/25456.html

<5> 请在修改系统注册表前备份注册表文件。避免修改系统文件。

<6> 请经常检查系统负载,确保运行的三方应用程序不存在资源泄露或线程死锁,定期更新三方应用程序到最新版本。

跟进方案

考虑到业务快速恢复,我们强烈建议客户在遇到系统停止响应的情况,重启机器恢复业务后,参考如上的最佳实践。尤其是请您务必采用如下4条来避免潜在的已知问题:

<1> 卸载三方杀毒软件

请注意: 禁用杀毒软件的防护功能,杀毒软件内核驱动可能仍然运行,继续影响操作系统行为。如果由于安全需求无法卸载三方杀毒软件,请您务必更新杀毒软件到最新版本以消除兼容性问题。

<2> 安全模式下,使用微软 Msert 离线杀毒工具或者三方收费版本杀毒软件杀毒。

<3> 运行 Windows Update,安装所有更新。

<4> 检查或停用 Windows 的启动脚本、登录脚本、组策略以查看问题是否再次发生。

 

如果采用最佳实践后,仍然发生Windows蓝屏或者停止响应问题,建议您:

1、参考微软官方 KB 中的排查建议

Troubleshoot "blue screen" or Stop error problems before you contact Microsoft Support

https://support.microsoft.com/en-us/kb/3106831


2、参考知识点“ECS Windows开启内核转储(Core Dump)配置说明收集数据,工单反馈进一步分析。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
存储 负载均衡 Java
如何配置Windows主机MPIO多路径访问存储系统
Windows主机多路径(MPIO)是一种技术,用于在客户端计算机上配置多个路径到存储设备,以提高数据访问的可靠性和性能。本文以Windows2012 R2版本为例介绍如何在客户端主机和存储系统配置多路径访问。
41 13
如何配置Windows主机MPIO多路径访问存储系统
|
21天前
|
Windows
.NET 隐藏/自定义windows系统光标
【10月更文挑战第20天】在.NET中,可以使用`Cursor`类来控制光标。要隐藏光标,可将光标设置为`Cursors.None`。此外,还可以通过从文件或资源加载自定义光标来更改光标的样式。例如,在表单加载时设置`this.Cursor = Cursors.None`隐藏光标,或使用`Cursor.FromFile`方法加载自定义光标文件,也可以将光标文件添加到项目资源中并通过资源管理器加载。这些方法适用于整个表单或特定控件。
|
21天前
|
Apache 数据中心 Windows
将网站迁移到阿里云Windows系统云服务器,访问该站点提示连接被拒绝,如何处理?
将网站迁移到阿里云Windows系统云服务器,访问该站点提示连接被拒绝,如何处理?
|
21天前
|
域名解析 缓存 网络协议
Windows系统云服务器自定义域名解析导致网站无法访问怎么解决?
Windows系统云服务器自定义域名解析导致网站无法访问怎么解决?
|
21天前
|
弹性计算 网络安全
阿里云国际OpenAPI多接口快速管理ECS服务器教程
阿里云国际OpenAPI多接口快速管理ECS服务器教程
|
4天前
|
弹性计算
阿里云2核16G服务器多少钱一年?亲测价格查询1个月和1小时收费标准
阿里云2核16G服务器提供多种ECS实例规格,内存型r8i实例1年6折优惠价为1901元,按月收费334.19元,按小时收费0.696221元。更多规格及详细报价请访问阿里云ECS页面。
37 9
|
1天前
|
监控 Ubuntu Linux
使用VSCode通过SSH远程登录阿里云Linux服务器异常崩溃
通过 VSCode 的 Remote - SSH 插件远程连接阿里云 Ubuntu 22 服务器时,会因高 CPU 使用率导致连接断开。经排查发现,VSCode 连接根目录 ".." 时会频繁调用"rg"(ripgrep)进行文件搜索,导致 CPU 负载过高。解决方法是将连接目录改为"root"(或其他具体的路径),避免不必要的文件检索,从而恢复正常连接。
|
5天前
|
弹性计算 异构计算
2024年阿里云GPU服务器多少钱1小时?亲测价格查询方法
2024年阿里云GPU服务器每小时收费因实例规格不同而异。可通过阿里云GPU服务器页面选择“按量付费”查看具体价格。例如,NVIDIA A100的gn7e实例为34.742元/小时,NVIDIA A10的gn7i实例为12.710156元/小时。更多详情请访问阿里云官网。
34 2
|
10天前
|
存储 弹性计算 NoSQL
"从入门到实践,全方位解析云服务器ECS的秘密——手把手教你轻松驾驭阿里云的强大计算力!"
【10月更文挑战第23天】云服务器ECS(Elastic Compute Service)是阿里云提供的基础云计算服务,允许用户在云端租用和管理虚拟服务器。ECS具有弹性伸缩、按需付费、简单易用等特点,适用于网站托管、数据库部署、大数据分析等多种场景。本文介绍ECS的基本概念、使用场景及快速上手指南。
40 3
|
15天前
|
存储 弹性计算 编解码
通过阿里云的活动租赁云服务器时如何选择实例规格?选择指南参考
新手用户通过阿里云的活动租赁云服务器的时候实例规格应该怎么选?目前在阿里云的活动中,可选的云服务器类型除了轻量应用服务器之外,云服务器的主要实例规格有经济型e、通用算力型u1和计算型c7与c8y、通用型g7与g8y、内存型r7与r8y等实例,但是对于新手来说,由于是初次购买,实例规格往往不知道怎么选择了。本文为大家展示阿里云目前活动中各云服务器实例规格性能、适用场景以及选择指南参考。