面对蓝屏,阿里云云原生能力可以帮客户做点啥?

简介: Windows大面积蓝屏,问题源于“CSAgent.sys”加载错误设定的“C-00000291*.sys”文件。阿里云充分利用云原生能力,通过ECS实例自助排查和OOS批量操作快速修复受损机器。

 

近日,微软全球宕机事件引发业界关注和思考。由于国外一家终端安全公司Crowdstrike软件更新,导致了微软Windows系统大面积蓝屏死机。一些欧美机场、医院、媒体与银行由于Windows系统崩溃,陷入瘫痪状态,不仅诸多企业运营受阻,人们的衣食住行也受到影响。

 

造成本次蓝屏事件的原因,是因为“CSAgent.sys”加载和解析使用存在错误设定的“C-00000291*.sys”文件所致。根据Crowdstrike的官网提供的解决方案,用户可以尝试以下操作进行恢复:

 

1. 使用安全模式或恢复模式进入操作系统

2. 进入 C:\Windows\System32\drivers\CrowdStrike 目录

3. 找到所有匹配“C-00000291*.sys”的文件,并将其删除

4. 正常启动主机

或者直接重命名以下文件夹:“C:\Windows\system32\drivers\CrowdStrike

 

事实上,目前许多企业办公场景和生产场景都会使用这样的第三方软件,由于安全问题和三方软件功能迭代,办公电脑和服务器需要不断地安装更新。由于对于三方软件缺乏技术上的深入了解,运维人员往往很难定位到是三方软件的问题,只能面对着蓝屏电脑、崩溃的服务器一头雾水。

 

此次事件中,阿里云上也有部分用户受到波及。通过对故障情况分析和梳理,以及基于云的特性和能力,阿里云对云上客户在应对此类故障的应急处理方面,可以提供怎样的帮助?

 

首先,阿里云ECS实例具备自助排查能力,可以帮助企业客户快速定位三方软件问题,及时地定位问题根因。对于一些已知的问题,知识库会给出修复方案,解决企业因为缺乏专业排查工具而定位难的问题。

 

图片 1.png

ECS控制台自助问题排查)

 

图片 2.png

ECS实例问题排查定位的事件分析根因)

 

其次,云上用户还可通过系统运维管理服务,如阿里云的OOS,对受损机器进行批量操作,从而迅速止血,用户可在执行模板窗口选择要修复的ECS实例等参数,就可以一键对受损的实例进行批量修复。

 

图片 3.png

整个自动化修复流程不仅大大减少了用户的修复时间,并且由于在模板中固化了修复流程,能够保证修复效果,避免手动修复过程中执行错误的情况。

 

图片 4.png

 

本次事件也给各大厂商在安全产品的设计、研发、测试、以及变更的流程上一定启示。

 

比如,从产品设计角度,厂商应当有节制地使用驱动方案。目前阿里云在只有涉及到实时防御和拦截的功能才必须要基于驱动方案实现,其他所有的功能都是基于应用层设计,这样可在设计阶段就保证不会将风险不断扩大。

 

再如,从变更发布角度讲,提前规划好灰度流程与回滚方案。阿里云在设计此类安全产品时候,会根据最小粒度即单机进行灰度。对于机器规模庞大且整体变更周期很长的情况,会采用阶梯式的灰度发布,即逐个区域分批次发布,每批次发布机器数量、范围逐步增加,最终达到一个相对平稳的发布数量批次完成全网发布。

 

总的来说,此类故障难以完全避免,对于云厂商来说也需要不断提升自身在设计、研发、变更上的控制能力,优先保障系统稳定,且对系统稳定性做持续的投入、建设和优化,来降低故障风险。

 

对于云上产品用户来说,要利用好云平台提供的原生能力,在出现故障时进行规避和恢复,尽可能降低运维成本。对于三方产品的引入和部署,应当有充分的调研和评估,避免引入不受控的风险。

 

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
26天前
|
Cloud Native 测试技术 开发者
终于!我找到了开发的得力助手!阿里云天池云原生编程挑战赛参赛攻略
在比赛过程中,通义灵码插件成为了我开发工作的得力助手。这个插件提供了智能代码补全和错误提示功能,大大提高了我的编码效率。尤其是通义灵码能够实时分析代码,给出优化建议,让我避免了很多潜在的错误。
204 64
|
26天前
|
人工智能 缓存 Cloud Native
用 Higress AI 网关降低 AI 调用成本 - 阿里云天池云原生编程挑战赛参赛攻略
《Higress AI 网关挑战赛》正在火热进行中,Higress 社区邀请了目前位于排行榜 top5 的选手杨贝宁同学分享他的心得。本文是他整理的参赛攻略。
517 68
|
1天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 08 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
9天前
|
Cloud Native 关系型数据库 Serverless
基于阿里云函数计算(FC)x 云原生 API 网关构建生产级别 LLM Chat 应用方案最佳实践
本文带大家了解一下如何使用阿里云Serverless计算产品函数计算构建生产级别的LLM Chat应用。该最佳实践会指导大家基于开源WebChat组件LobeChat和阿里云函数计算(FC)构建企业生产级别LLM Chat应用。实现同一个WebChat中既可以支持自定义的Agent,也支持基于Ollama部署的开源模型场景。
|
18天前
|
Cloud Native 数据库 开发者
云原生数据库2.0问题之帮助阿里云数据库加速技术更新如何解决
云原生数据库2.0问题之帮助阿里云数据库加速技术更新如何解决
|
30天前
|
人工智能 Cloud Native 安全
统一多层网关好处多,阿里云云原生 API 网关打造全能型网关
本文分享了作为一款全能型网关【云原生 API 网关】是如何帮助企业落地统一网关架构的。
7696 7
|
1月前
|
存储 运维 Cloud Native
"Flink+Paimon:阿里云大数据云原生运维数仓的创新实践,引领实时数据处理新纪元"
【8月更文挑战第2天】Flink+Paimon在阿里云大数据云原生运维数仓的实践
207 3
|
3天前
|
运维 Cloud Native 云计算
云原生之旅:从容器化到微服务架构的演进之路
在数字化浪潮中,云原生技术如同星辰大海中的灯塔,为航船指引方向。本文将带你穿梭于云计算的世界,探索从容器化技术到微服务架构的变革旅程。我们将一窥云原生如何助力企业灵活应对快速变化的市场需求,以及在这一过程中,开发者和运维人员是如何成为时代变革的弄潮儿。让我们一同启航,驶向云原生的广阔天地。
|
1天前
|
运维 Cloud Native 云计算
云原生之旅:从容器化到微服务架构
【9月更文挑战第9天】在数字化转型的浪潮中,云原生技术成为推动企业IT革新的关键力量。本文将通过浅显易懂的语言和生动的比喻,带领读者探索云原生的核心概念、关键技术及实践路径,揭示如何在云计算时代构建灵活、高效、可靠的应用系统。你将了解到,正如甘地所言“你必须成为你希望在世界上看到的改变”,在云原生的世界里,每一位开发者和技术决策者都扮演着塑造未来的角色。
|
1天前
|
资源调度 Cloud Native 安全
云原生时代的微服务架构演进之路
【9月更文挑战第9天】在云计算技术不断演进的今天,云原生成为了推动现代软件开发的关键力量。本文将通过浅显易懂的语言和生动的比喻,带领读者一探云原生时代下微服务架构的发展脉络,揭示如何在云平台上构建、部署和管理微服务应用。我们将从微服务的诞生谈起,逐步深入到容器化、服务网格等高级话题,并以代码示例为引导,展示云原生微服务的实践之道。

热门文章

最新文章