面对蓝屏,阿里云云原生能力可以帮客户做点啥?

简介: Windows大面积蓝屏,问题源于“CSAgent.sys”加载错误设定的“C-00000291*.sys”文件。阿里云充分利用云原生能力,通过ECS实例自助排查和OOS批量操作快速修复受损机器。

 

近日,微软全球宕机事件引发业界关注和思考。由于国外一家终端安全公司Crowdstrike软件更新,导致了微软Windows系统大面积蓝屏死机。一些欧美机场、医院、媒体与银行由于Windows系统崩溃,陷入瘫痪状态,不仅诸多企业运营受阻,人们的衣食住行也受到影响。

 

造成本次蓝屏事件的原因,是因为“CSAgent.sys”加载和解析使用存在错误设定的“C-00000291*.sys”文件所致。根据Crowdstrike的官网提供的解决方案,用户可以尝试以下操作进行恢复:

 

1. 使用安全模式或恢复模式进入操作系统

2. 进入 C:\Windows\System32\drivers\CrowdStrike 目录

3. 找到所有匹配“C-00000291*.sys”的文件,并将其删除

4. 正常启动主机

或者直接重命名以下文件夹:“C:\Windows\system32\drivers\CrowdStrike

 

事实上,目前许多企业办公场景和生产场景都会使用这样的第三方软件,由于安全问题和三方软件功能迭代,办公电脑和服务器需要不断地安装更新。由于对于三方软件缺乏技术上的深入了解,运维人员往往很难定位到是三方软件的问题,只能面对着蓝屏电脑、崩溃的服务器一头雾水。

 

此次事件中,阿里云上也有部分用户受到波及。通过对故障情况分析和梳理,以及基于云的特性和能力,阿里云对云上客户在应对此类故障的应急处理方面,可以提供怎样的帮助?

 

首先,阿里云ECS实例具备自助排查能力,可以帮助企业客户快速定位三方软件问题,及时地定位问题根因。对于一些已知的问题,知识库会给出修复方案,解决企业因为缺乏专业排查工具而定位难的问题。

 

图片 1.png

ECS控制台自助问题排查)

 

图片 2.png

ECS实例问题排查定位的事件分析根因)

 

其次,云上用户还可通过系统运维管理服务,如阿里云的OOS,对受损机器进行批量操作,从而迅速止血,用户可在执行模板窗口选择要修复的ECS实例等参数,就可以一键对受损的实例进行批量修复。

 

图片 3.png

整个自动化修复流程不仅大大减少了用户的修复时间,并且由于在模板中固化了修复流程,能够保证修复效果,避免手动修复过程中执行错误的情况。

 

图片 4.png

 

本次事件也给各大厂商在安全产品的设计、研发、测试、以及变更的流程上一定启示。

 

比如,从产品设计角度,厂商应当有节制地使用驱动方案。目前阿里云在只有涉及到实时防御和拦截的功能才必须要基于驱动方案实现,其他所有的功能都是基于应用层设计,这样可在设计阶段就保证不会将风险不断扩大。

 

再如,从变更发布角度讲,提前规划好灰度流程与回滚方案。阿里云在设计此类安全产品时候,会根据最小粒度即单机进行灰度。对于机器规模庞大且整体变更周期很长的情况,会采用阶梯式的灰度发布,即逐个区域分批次发布,每批次发布机器数量、范围逐步增加,最终达到一个相对平稳的发布数量批次完成全网发布。

 

总的来说,此类故障难以完全避免,对于云厂商来说也需要不断提升自身在设计、研发、变更上的控制能力,优先保障系统稳定,且对系统稳定性做持续的投入、建设和优化,来降低故障风险。

 

对于云上产品用户来说,要利用好云平台提供的原生能力,在出现故障时进行规避和恢复,尽可能降低运维成本。对于三方产品的引入和部署,应当有充分的调研和评估,避免引入不受控的风险。

 

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
负载均衡 容灾 Cloud Native
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
91 7
|
6天前
|
监控 安全 Cloud Native
阿里云容器服务&云安全中心团队荣获信通院“云原生安全标杆案例”奖
2024年12月24日,阿里云容器服务团队与云安全中心团队获得中国信息通信研究院「云原生安全标杆案例」奖。
|
6天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
28天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
28天前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
2024云栖大会,阿里巴巴研究员易立分享了阿里云容器服务的最新进展。容器技术已成为云原生操作系统的基石,支持多样化的应用场景,如自动驾驶、AI训练等。阿里云容器服务覆盖公共云、边缘云、IDC,提供统一的基础设施,助力客户实现数字化转型和技术创新。今年,阿里云在弹性计算、网络优化、存储解决方案等方面进行了多项重要升级,进一步提升了性能和可靠性。
|
30天前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 云原生 API 网关 2024 年 11 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
|
2月前
|
存储 Prometheus 运维
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案
在云原生环境中,阿里云ARMS与Prometheus的集成提供了强大的应用实时监控解决方案。该集成结合了ARMS的基础设施监控能力和Prometheus的灵活配置及社区支持,实现了全面、精准的系统状态、性能和错误监控,提升了应用的稳定性和管理效率。通过统一的数据视图和高级查询功能,帮助企业有效应对云原生挑战,促进业务的持续发展。
49 3
|
1月前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
1月前
|
Kubernetes Cloud Native 微服务
探索云原生技术:容器化与微服务架构的融合之旅
本文将带领读者深入了解云原生技术的核心概念,特别是容器化和微服务架构如何相辅相成,共同构建现代软件系统。我们将通过实际代码示例,探讨如何在云平台上部署和管理微服务,以及如何使用容器编排工具来自动化这一过程。文章旨在为开发者和技术决策者提供实用的指导,帮助他们在云原生时代中更好地设计、部署和维护应用。
|
2月前
|
Cloud Native Devops 云计算
云计算的未来:云原生架构与微服务的革命####
【10月更文挑战第21天】 随着企业数字化转型的加速,云原生技术正迅速成为IT行业的新宠。本文深入探讨了云原生架构的核心理念、关键技术如容器化和微服务的优势,以及如何通过这些技术实现高效、灵活且可扩展的现代应用开发。我们将揭示云原生如何重塑软件开发流程,提升业务敏捷性,并探索其对企业IT架构的深远影响。 ####
53 3
下一篇
开通oss服务