两种策略可保护企业免受下一次大规模技术故障的影响

简介: 两种策略可保护企业免受下一次大规模技术故障的影响

本文来源:企业网D1net

CrowdStrike事件暴露了允许软件供应商深入访问网络基础设施的潜在风险,引发了对数字服务集中化的广泛担忧。本文探讨了如何通过多样化供应商和系统,以及强化应急计划,来降低类似大规模故障的风险。随着全球企业越来越依赖第三方软件和云服务,抵制“将所有鸡蛋放在一个篮子里”的诱惑,变得尤为重要。本文提供了防范措施,并以Netflix和Rogers Communications的案例分析,展示了如何通过规划和演练应对灾难性事件,保障业务连续性。


7月的CrowdStrike事件清楚地展示了允许软件供应商深入访问网络基础设施的风险,这也引发了人们对数字服务集中在少数几家公司手中的担忧。一篇预见性的Reddit帖子指出,CrowdStrike对于世界上许多最大企业来说是一个威胁载体,同时也是一个数据的金矿。


鉴于7月19日CrowdStrike失败更新后引发的全球计算机停机事件,审慎的高管们正在问:“我如何防止类似的事情再次发生?”


随着大型科技公司市场集中度的提高,类似的大规模故障完全有可能再次发生。根据Synergy Research Group的数据,三大领先的云服务提供商——Amazon、Microsoft和Google——占据了全球市场的67%,其中,仅Amazon在2023年底就占据了31%的市场份额。


有两种策略可以减轻类似软件故障的影响:多样化网络基础设施和模拟故障处理。在讨论防御措施之前,我们先来讨论一下引入CrowdStrike或其他第三方软件供应商进入企业所带来的风险。


CrowdStrike崩溃事件只是冰山一角


将设备访问权限授予外部软件或服务供应商会带来以下风险:


  • 失去对网络功能的访问(如CrowdStrike事件中所发生的那样)


  • 数据的未经授权访问(你的知识产权和客户数据安全吗?)


  • 通过聚合数据对你的业务活动进行可视化监控


此外,你的数据安全现在依赖于网络安全公司或云服务提供商的安全实践。


考虑一下“移动设备管理”或“设备监控”工具,它们中的大多数实际上都是rootkit,可以让第三方100%控制你公司的设备。对于任何拥有专有知识产权并希望保密的公司来说,这种做法似乎都不明智。


没错,CrowdStrike确实搞砸了,并以一种极其壮观的方式导致数百万台Windows计算机瘫痪,但这只是冰山一角,更大的威胁——我们集体而方便地忽视了——是某个外部实体掌控了你的业务运营。


高级安全软件至关重要,但你在提供安全仪表板的名义下将网络的钥匙交给了别人。


人们担心Facebook的跟踪,并关闭第三方Cookies以保护私人生活,但像CrowdStrike这样的软件可以监视、跟踪每一台公司电脑,从最底层的实习生到CEO。与之相比,Cookies只是小问题。


现在,即使CrowdStrike本身是可靠的,他们的软件也按预期运行,但如果有人入侵了CrowdStrike会怎样?理论上,攻击者可能会获得航空公司网络、银行网络以及全球各大企业的访问权限,这让我感到担忧。如果你给予某个供应商如此广泛的网络访问权限,这种风险必须被评估。


那么,作为CIO或CISO,你如何减少这些大型科技公司发生另一场大规模故障的风险呢?


为失败做好准备:规划、演练、预期


减少大规模系统故障的关键在于为灾难性事件做好规划,并演练应对措施。将应对失败的过程纳入日常业务实践中。当失败是出乎意料且罕见时,处理它的流程往往未经测试,甚至可能导致使情况恶化的行动。


建立一个能够适应和应对故障的网络和团队。记得保险公司以前运行自己的数据中心,并每年进行两次灾难恢复测试吗?如今很少有公司在应急计划上做到如此彻底,但一些公司,如Netflix,通过混沌工程树立了良好的榜样。Netflix的Chaos Monkey开源软件通过引入故意的系统中断,模拟现实世界中的故障,以测试系统的弹性。


要像Netflix,而不是像Delta Airlines那样:在CrowdStrike更新后,Delta的关键机组人员跟踪系统大部分时间都处于离线状态,几乎持续了一周。


多样化你的供应商和系统


减少大规模故障的第二个策略是避免因数字技术供应商的集中化而造成的软件单一化。这虽然更复杂,但值得尝试。


一些公司有一项政策,即从三到四个不同的供应商那里购买核心网络设备。虽然这使得日常管理变得稍微困难一些,但他们有信心,即使一个供应商出现问题,他们的整个网络也不会瘫痪。无论是在技术领域还是生物学中,单一文化都极易受到能够摧毁整个系统的流行病的攻击。


在CrowdStrike的情境下,如果公司网络是Windows、Linux和其他操作系统的混合体,那么损害就不会如此广泛。


对于“多样化系统”这一观点,2022年7月加拿大的Rogers Communications网络中断就是一个例子,这家加拿大电信提供商经历了一次重大服务中断,导致其有线互联网和移动网络服务停止,影响了超过1200万用户,持续时间长达26小时。


恢复工作受到阻碍,因为Rogers的员工通常是使用Rogers的蜂窝和互联网系统的用户,而这些系统当时崩溃了。那些不在办公室的员工无法访问互联网,甚至无法使用他们的手机。一份第三方审查报告指出,Rogers的员工在中断发生14小时后才得以访问记录故障根本原因的关键错误日志。


结 论


第三方软件供应商和云服务已经成为IT领域不可或缺的一部分,但如果我们想要将业务风险降到最低,就必须抵制将所有鸡蛋放在一个篮子里的诱惑。

从CrowdStrike事件中得到的教训是:多样化你的供应商和系统,并重新审视你的应急计划。


版权声明:本文为企业网D1net编译,转载需在文章开头注明出处为:企业网D1net,如果不注明出处,企业网D1net将保留追究其法律责任的权利。



相关文章
|
3月前
|
存储 监控 安全
强化数据丢失防护:五大策略助力数据分类与安全升级
强化数据丢失防护:五大策略助力数据分类与安全升级
|
5月前
|
弹性计算 负载均衡 网络协议
在缓解DDoS攻击方面,如何优化业务架构?
**缓解DDoS攻击的策略:** 1. 缩小暴露面,隔离业务并隐藏非必需服务端口。 2. 使用VPC以增强内网安全。 3. 优化业务架构,进行压力测试,部署弹性伸缩和负载均衡。 4. 优化DNS解析,智能解析并屏蔽异常DNS响应。 5. 提供充足带宽以防攻击时影响正常流量。 6. 服务器安全加固,更新补丁,限制服务和端口,使用防火墙。 7. 建立应急响应预案,定期演练。 8. 考虑采用Web应用防火墙和专业DDoS防护服务。
192 17
|
7月前
|
监控 安全 网络安全
云端防御策略:在云计算时代维护网络安全与信息完整性
【5月更文挑战第14天】 随着企业逐渐将数据和服务迁移至云平台,云计算的便捷性和成本效益显著提升。然而,这种转变也带来了新的安全挑战。本文深入探讨了云服务中的网络安全威胁、信息安全的重要性以及相应的防御机制。我们将分析当前的安全漏洞,提出创新的安全框架,并讨论如何通过综合措施确保数据的保密性、完整性和可用性。我们的目标是为读者提供一套实用的策略,以保护他们在云端的资产不受日益复杂的网络攻击。
|
7月前
|
存储 安全 网络安全
云端防御策略:确保云计算环境下的网络安全与信息完整性
【2月更文挑战第29天】 随着企业加速数字化转型,云计算已成为支撑现代业务架构的关键。然而,云服务的广泛采用也带来了前所未有的安全挑战。本文深入探讨了云计算环境中网络安全和信息保护的重要性,分析了云服务模型(IaaS, PaaS, SaaS)中存在的安全风险,并提出了综合性的安全策略,包括数据加密、访问控制、威胁检测与响应机制等,以增强云基础设施的安全性和数据的保密性、完整性及可用性。文章旨在为云服务用户提供战略层面的安全指导,帮助他们在享受云计算带来的便利的同时,有效防范潜在的安全威胁。
|
人工智能 监控 供应链
应对2023年不可避免的数据泄露的5个步骤
应对2023年不可避免的数据泄露的5个步骤
193 0
|
存储 传感器 监控
为什么数据安全十分重要?影响数据安全因素有哪些
数字化转型正在深刻地改变当今企业运营和竞争的方方面面。 企业创建、控制和存储的数据量正在不断增长,并推动了对数据治理的更大需求。
683 0
为什么数据安全十分重要?影响数据安全因素有哪些
|
存储 Kubernetes Java
K8s集群稳定性提升手段
K8s集群稳定性提升手段
K8s集群稳定性提升手段