云栖号:https://yqh.aliyun.com
第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策!
如今,数据转储、勒索软件攻击、恶意软件攻击事件已屡见不鲜,这意味着事件管理策略已成为必要选项。这并不是事件是否会发生的问题,而是何时发生的问题。而且由于当前IT环境的超连接特性,基于云计算的工作负载特别容易受到攻击。
如果没有确定的响应流程,企业将无法对安全威胁或意外的基础设施或应用程序问题做出适当的反应。值得庆幸的是,事件管理是一个完善的过程。
为了减轻制定计划的压力,需要了解以下五个步骤,以在事件发生之前进行识别、补救和适应。
步骤1:准备
企业IT团队建立云计算事件响应流程时,最重要的事情之一就是为不可避免发生的事件做好准备。尽管准备工作可以采用不同的形式,但通常分为三类:培训、编制文档和聚合。
(1) 培训
在云计算事件响应方面,配备合适的人员只是完成其流程的一半。企业还需要对其员工进行培训,提供充分的信息和支持,以便在事件发生时进行处理。
云原生组织必须确保其员工了解如何选择其提供商的界面,以收集信息并对发现的内容做出反应。这也意味着员工应该了解企业的事件管理计划以及对他们的期望。
(2) 编制文档
企业都应该有可靠的文档来有效运作。为了支持可能会进行事故响应的员工,这意味着需要创建和维护准确的操作手册。Runbook是企业员工在生产环境中对可预测事件做出反应时可以执行的一系列常规操作和过程。
Runbook不仅限于安全事件,因为它们还可以引导员工完成诸如如何扩展数据库或重新启动卡住的进程等任务。在事件管理方面,对于不熟悉企业架构的员工来说,Runbook是第一道防线。
(3) 聚合
当涉及到事件响应团队识别发生了什么、如何发生以及为什么发生的能力时,数据是关键。尽管日志聚合和分析可能非常昂贵,但这些信息是在以后步骤中进行的任何识别、分类和修复工作的基础。
步骤2:确定
在团队对事件做出响应之前,他们需要确定事件发生的时间。这可以通过多种方式实现,但是通常需要识别异常行为。这是一个人工处理的过程,通过梳理用户报告或查看日志和分析数据进行处理,但是自动化工具的实施是识别大型云计算环境中异常行为的唯一可扩展方式。
通过人工处理或自动过程识别事件之后,许多组织可能选择通知其云计算提供商并对其进行交叉验证。这个步骤可以确保企业对实际事件做出反应,而在时间紧迫的情况下,云计算提供商的支持可以帮助快速结束循环。
步骤3:协调
一旦确定了事件,下一步就是进行组织。在实际解决所有问题之前,需要了解问题的性质和严重性,并定义和与响应团队合作。在这一步骤中,值班人员或企业员工将负责确定报告的性质,并对严重性进行初步评估,然后再将其传递给其团队成员。
建立响应团队:
许多云原生组织可能规模很小,但针对每次事件可以由其团队成员进行处理。但是,组织规模越大,可以找到所发生问题的技术专家就越重要。
在事件发生后,将其转移到团队成员(也称为事件指挥者)进行处理,事件指挥者将从相关团队中确定跨职能领导,以创建云计算事件响应团队。该团队将负责调查和纠正问题。
步骤4:补救
确定活动事件并建立响应团队之后,开始调查并解决问题。在响应团队进行调查时,可能需要其他团队成员和资源来收集尽可能多的信息。
由于事件固有的不可预测性,很难在这个过程中设定时间表。保持内部沟通渠道畅通,以跟踪进度并了解整体影响。
在网络安全方面,没有将可能影响客户个人的问题通知客户将最容易失去客户的信任。重要的是要清楚地了解事故发生时的情况,以及如何补救。对于不向客户报告事件然后在晚些时候曝光的方法需要谨慎采用。当有疑问的时候,可能在透明度方面犯错误。
步骤5:回顾
回顾是完成敏捷云计算事件响应过程的基石,回顾使企业能够从过去的错误中吸取教训并采取纠正措施,以确保措施始终在不断改进。突出显示进展顺利的地方,并确定需要改进的地方,以帮助定义行动项目。这使企业的响应团队可以从过去的事件中学习,并为应对下一次事件做好准备。
云栖号:https://yqh.aliyun.com
第一手的上云资讯,不同行业精选的上云企业案例库,基于众多成功案例萃取而成的最佳实践,助力您上云决策!
原文发布时间:2020-01-08
本文作者:Zachary Flower
本文来自阿里云云栖号合作伙伴“企业网D1Net”,了解相关信息可以关注“企业网D1Net”