面对蓝屏,阿里云云原生能力可以帮客户做点啥?

简介: Windows大面积蓝屏,问题源于“CSAgent.sys”加载错误设定的“C-00000291*.sys”文件。阿里云充分利用云原生能力,通过ECS实例自助排查和OOS批量操作快速修复受损机器。

 

近日,微软全球宕机事件引发业界关注和思考。由于国外一家终端安全公司Crowdstrike软件更新,导致了微软Windows系统大面积蓝屏死机。一些欧美机场、医院、媒体与银行由于Windows系统崩溃,陷入瘫痪状态,不仅诸多企业运营受阻,人们的衣食住行也受到影响。

 

造成本次蓝屏事件的原因,是因为“CSAgent.sys”加载和解析使用存在错误设定的“C-00000291*.sys”文件所致。根据Crowdstrike的官网提供的解决方案,用户可以尝试以下操作进行恢复:

 

1. 使用安全模式或恢复模式进入操作系统

2. 进入 C:\Windows\System32\drivers\CrowdStrike 目录

3. 找到所有匹配“C-00000291*.sys”的文件,并将其删除

4. 正常启动主机

或者直接重命名以下文件夹:“C:\Windows\system32\drivers\CrowdStrike

 

事实上,目前许多企业办公场景和生产场景都会使用这样的第三方软件,由于安全问题和三方软件功能迭代,办公电脑和服务器需要不断地安装更新。由于对于三方软件缺乏技术上的深入了解,运维人员往往很难定位到是三方软件的问题,只能面对着蓝屏电脑、崩溃的服务器一头雾水。

 

此次事件中,阿里云上也有部分用户受到波及。通过对故障情况分析和梳理,以及基于云的特性和能力,阿里云对云上客户在应对此类故障的应急处理方面,可以提供怎样的帮助?

 

首先,阿里云ECS实例具备自助排查能力,可以帮助企业客户快速定位三方软件问题,及时地定位问题根因。对于一些已知的问题,知识库会给出修复方案,解决企业因为缺乏专业排查工具而定位难的问题。

 

图片 1.png

ECS控制台自助问题排查)

 

图片 2.png

ECS实例问题排查定位的事件分析根因)

 

其次,云上用户还可通过系统运维管理服务,如阿里云的OOS,对受损机器进行批量操作,从而迅速止血,用户可在执行模板窗口选择要修复的ECS实例等参数,就可以一键对受损的实例进行批量修复。

 

图片 3.png

整个自动化修复流程不仅大大减少了用户的修复时间,并且由于在模板中固化了修复流程,能够保证修复效果,避免手动修复过程中执行错误的情况。

 

图片 4.png

 

本次事件也给各大厂商在安全产品的设计、研发、测试、以及变更的流程上一定启示。

 

比如,从产品设计角度,厂商应当有节制地使用驱动方案。目前阿里云在只有涉及到实时防御和拦截的功能才必须要基于驱动方案实现,其他所有的功能都是基于应用层设计,这样可在设计阶段就保证不会将风险不断扩大。

 

再如,从变更发布角度讲,提前规划好灰度流程与回滚方案。阿里云在设计此类安全产品时候,会根据最小粒度即单机进行灰度。对于机器规模庞大且整体变更周期很长的情况,会采用阶梯式的灰度发布,即逐个区域分批次发布,每批次发布机器数量、范围逐步增加,最终达到一个相对平稳的发布数量批次完成全网发布。

 

总的来说,此类故障难以完全避免,对于云厂商来说也需要不断提升自身在设计、研发、变更上的控制能力,优先保障系统稳定,且对系统稳定性做持续的投入、建设和优化,来降低故障风险。

 

对于云上产品用户来说,要利用好云平台提供的原生能力,在出现故障时进行规避和恢复,尽可能降低运维成本。对于三方产品的引入和部署,应当有充分的调研和评估,避免引入不受控的风险。

 

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
人工智能 安全 Cloud Native
阿里云云原生安全能力全线升级,护航百万客户云上安全
【重磅发布】9月20日,在杭州云栖大会上,阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
132 15
|
6天前
|
运维 Cloud Native 数据可视化
阿里云云原生应用组装平台BizWorks满分通过最新评估
阿里云BizWorks满分通过《基于云计算的业务组装平台能力成熟度模型》评测,获得优秀级(最高等级),广东移动联合阿里云BizWorks团队开展的组装式应用实践获得第三届“鼎新杯”数字化转型应用优秀案例一等奖。
|
10天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 09 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
16天前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
1月前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
针对软件供应链的攻击事件在以每年三位数的速度激增,其中三方或开源软件已经成为攻击者关注的重要目标,其攻击方式和技术也在不断演进。通过供应链的传播,一个底层软件包的漏洞的影响范围可以波及世界。企业亟需更加标准和完善的供应链风险洞察和防护机制。本文将结合最佳实践的形式,面向容器应用完整的生命周期展示如何基于容器服务ACK/ACR/ASM助力企业构建云原生软件供应链安全。
|
1月前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
今年是Kubernetes十周年,在这10年间。我们已经看到其成长为云原生操作系统,向下高效调度多种算力资源,屏蔽基础设施差异,向上提供统一编程接口,支持多样化工作负载。阿里云容器服务产品已经覆盖了从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都有统一的容器基础设施。
阿里云容器服务,智算时代云原生操作系统
|
1月前
|
人工智能 Kubernetes Cloud Native
深度对话 解锁阿里云分布式云原生技术落地新姿势
深度对话 解锁阿里云分布式云原生技术落地新姿势
深度对话 解锁阿里云分布式云原生技术落地新姿势
|
11天前
|
Cloud Native 持续交付 开发者
探索云原生技术:构建高效、灵活的应用架构
【10月更文挑战第6天】 在当今数字化浪潮中,企业面临着日益复杂的业务需求和快速变化的市场环境。为了保持竞争力,他们需要构建高效、灵活且可扩展的应用程序架构。本文将探讨云原生技术如何帮助企业实现这一目标,并分析其核心概念与优势。通过深入剖析云原生技术的各个方面,我们将揭示其在现代应用开发和部署中的重要性,并提供一些实用的建议和最佳实践。
39 2
|
1天前
|
运维 Cloud Native 持续交付
云原生架构的演进与实践####
【10月更文挑战第16天】 云原生,这一概念自提出以来,便以其独特的魅力和无限的可能性,引领着现代软件开发与部署的新浪潮。本文旨在探讨云原生架构的核心理念、关键技术及其在实际项目中的应用实践,揭示其如何帮助企业实现更高效、更灵活、更可靠的IT系统构建与管理。通过深入剖析容器化、微服务、持续集成/持续部署(CI/CD)等核心技术,结合具体案例,本文将展现云原生架构如何赋能企业数字化转型,推动业务创新与发展。 ####
79 47
|
1天前
|
运维 Cloud Native 安全
深入探索云原生架构
【10月更文挑战第12天】
11 2