数字化安全生产平台V1.0正式发布
摘要:本文整理自阿里云云原生产品团队的比扬,在阿里云数字化安全生产平台DPS V1.0发布会的分享。
本篇内容主要分为五个部分:
1.安全生产平台背景介绍
2.安全生产平台方案介绍
3.安全生产平台场景介绍
4.安全生产平台核心能力
5.安全生产平台的价值
一、安全生产平台背景介绍
在传统安全生产的过程中,企业通常不以业务连续性为导向。企业缺乏清晰的稳定性指标度量,缺乏标准的应急流程体系,职能不明确,应急过程混乱。企业的核心保障系统建设不足,比如监控,告警等能力层次不齐。除此之外,企业已有的稳定性保障手段散乱,无法通过流程有机结合。
为了解决上述问题,企业需要明确业务的连续性指标;企业必须针对业务连续性指标,选择针对性场景的落地方案。比如应急响应场景,容灾保障场景。
与此同时,企业需要建立,标准化的场景实施流程;补充缺失的保障能力,收敛管控已有的保障能力。职能明确到人,固化预案处理方案,不断丰富业务连续性的配置手段。比如监控够达到99%的覆盖,做到告警到人。
业务人员要保证业务连续、稳定、高可用。数字化安全生产要保证整个业务连续性和可度量。
随着度量值的不断提高,业务连续性成为最重要的目标。各个环节的安全生产效率实现数字化、可度量。然后,企业就能朝着度量的目标值,不断优化。
基于云原生的安全生产,有丰富的产品线,可以快速补充安全生产所需的能力,比如可观测领域、高可用领域等。
基于云原生的多样化的输出渠道,实现了产品的快速输出,提供了保障安全生产的能力。
基于阿里巴巴集团内部的最佳实践,电商业务最早实现了,适于阿里集团内部业务场景安全生产的最佳实践,通过每个团队业务连续性的度量标准评分。
阿里在每次的变更中记录、规范,从而形成一套相应的保障机制。保障运行是平稳运行。
与此同时,阿里在集团层面,推行应急保障文化,让所有产品研发,服务团队等相关人员的内心深处,有一股安全生产的影子。让所有员工意识到,所有的业务场景,都应该以保障安全生产为主。
二、安全生产平台方案介绍
安全生产有一个统一界面。在这个界面的基础上,阿里需要围绕业务场景,提供不同视角,帮助客户在安全生产周期中,完成不同的事。比如应急管理、变更、预警、可观测能力等。在这个门户的基础上,阿里涵盖了很多云原生、可观测、高可用、稳定性保障等矩阵化的能力。
以应对火灾为例。企业如果没有周而复始进行演练,当火灾真实发生时,工作人员可能会手忙脚乱。比如,如何保证人员安全输送?如何处理火灾蔓延?
阿里基于混沌工程理念的故障演练,围绕业务安全生产的各个方面,不断演练测试。最终出具一份贴合实际场景的评测报告。从而提升业务的一个可靠性。
除此之外,企业不但可以对业务的各个应用模块进行演练;也可以对承载业务部署的基础设施进行破坏性演练。
在稳定性防护方面,当业务上线之后,企业能够根据,实际的业务情况调整业务的运行预案,流量规则调配,容灾建设等等。
阿里安全生产的服务体系,经过大量最佳实践的沉淀,贴合业务自身的调研、评估,最后出具贴合客户业务的最佳方案。阿里安全生产的服务体系,根据实际的业务需求,评估安全生产的力度。
上图是数据安全生产体系大图。在这个基础上,安全生产平台提供了一种新型的运维管控和交付模式,能够快速为客户搭建监控一张图、运维一平台、接入一模式的安全生产体系。
安全生产平台需要对接集成相关的产品来形成业务场景所需的能力域,如监控域、预案域、演练域和防护域等。平台支持对接集成客户既有系统和三方产品。
安全生产平台围绕“发现-定位-解决”的逻辑结构提供风险预警、决策支撑、指挥调度和组织运营四大核心能力。支持能力对接集成的扩展性。
业务场景是由一组安全生产能力域组合,达成某个特定业务目的。平台支持多场景并行,平台以客户业务维度串联安全生产全流程,帮助客户解决某类业务的安全生产相关问题。
上图是安全生产平台的能力详解,主要有三个典型模块。第一,监控中心。平台可以从应用维度、业务维度、基础设施维度,全面对业务进行布控。通过不断定位,不断流转,提升监控项的覆盖度。
第二,事件中心。以事件中心的应急场景为例。应急场景是用户对故障的一种描述。对于开发人员来说,是某个函数出现了参数错误。应急场景需要跟很多监控项和业务应用,关联挂靠。当出现问题,平台通过监控告警就可以告知用户,快速按照预案执行,快速恢复。
第三,日志中心。平台通过日志手段,从网关到服务等各个层面的日志,全方位分析故障的时间点,给出一定的故障建议,排查建议。帮助用户做决策。
平台在阿里内部经过多年打磨,形成体系化的方法论沉淀。平台通过阿里外部的多年输出,已经在多个行业头部客户落地。平台围绕企业的应用架构,提供领域闭环的产品方案。平台围绕企业组织,提供定制化的适配方案。
平台围绕业务连续性场景,提供标准的服务能力和组织架构设计与咨询。平台的相关策略开放,核心技术无差别。支持生态开放,兼容主流的开源技术与标准。
三、安全生产平台场景介绍
“1-5-10”是阿里集团内部孵化出的可度量、可量化的指标。即1分钟故障发现&1分钟故障通告;5分钟应急响应&5分钟快恢方案定位;10分钟故障恢复。
不管通过人为盯盘方式、人工方式还是对接监控系统。一旦出现,平台能够做到一分钟发现故障。
当一次故障发生之后,平台能够做到五分钟响应。通过应急小组,按照时间段、人员进行排班处理。五分钟内,相关人员响应,联系相关团队和产品线共同解决问题。在五分钟之内,团队给出一个恢复方案或预案处置。然后,在十分钟内,恢复故障。
如上图所示,基于安全生产落地“1-5-10”应急响应的核心流程。当出现应急场景,平台会对接监控告警系统,人工盯盘小组。然后快速生成事件单或者故障单。
相关人员响应之后,会对风险进行评估,确定是偶发性事件或重大事件。到五分钟定位阶段,相关人员会拉通相关的责任方,评估影响面,定位原因。在每一步的处理过程中,及时通告进展。
与此同时,在定位时,借助智能分析、日志检索,帮助人员快速定位,并给出相关预案方法。在恢复过程中,一旦定位出原因,可以快速线上变更,快速恢复业务。恢复业务之后,进行更新复盘、监控项检查等相关行为。帮助企业不断的改进。
在风险发现时,平台对接监控系统、告警系统。一旦发现故障,通过告警汇聚、事件汇聚,进行故障预判。一旦上升到故障级别,快速对故障进行推送处理,评估故障级别,进行故障定位,决策、恢复等。最后,通过复盘沉淀出相关的改进项。
四、安全生产平台核心能力
安全生产有四大核心能力:
第一,风险预警。在风险发现时,平台对接监控系统、告警系统。
第二,决策支撑。定位故障原因,快速进行业务变更,业务恢复。
第三,指挥调度。通过全盘调度,完成业务的恢复上线,重新上线。
第四,组织运营。在组织人员和啊流程化的层面。打通“1-5-10”的流程。
风险预警在监控中心方面,实现了基础设施到业务应用的全站实时监控。监控在整个IT运维体系中呃重要性,不言而喻。
监控中心,一方面能够做到灵敏的故障感知,另一方面可以辅助企业进行指挥调度。监控系统可以分析当前的流量峰值,辅助企业判断流控规则,流控的阀值设置。
风险预警在智能告警方面,当监控触发了之后,会进入统一的告警中心。经过告警事件的过滤、降噪等关联处理。最终,沉淀出最有价值、最核心的告警,并沉淀为事件。然后针事件,进行标准化、流程化的管控。
风险预警在故障管理方面,当事件出现之后,服务部通过查看,7×24小时的值班监控,评估事件等级。按照标准化的流程,记录相关时间,沉淀到考核标准。
上图是基于钉钉群的故障处理流程。每一步的操作进展,都能通过钉钉的自动化通告渠道,暴露出来。在钉钉的事件卡片中,完成事件的闭环处理,故障的闭环处理。
一旦事件发现了之后,数据检索功能会通过指标数据,辅助企业决策。最终获得有价值的决策数据,帮助企业快速定位故障原因。
根因分析可以在企业自己排查的过程中,个智能化更新定位。目前,内置六七十种故障场景,快速通过系统,智能化定位,生成原因的分析报告,帮助企业快速定位问题。
如果在可预知的范围内,通过历史故障的评估,分析出历史故障发生的情况。企业针对每次出现的情况,做了根因分析和处理手段的沉淀。可以将其转化为可执行的预案,在问题明确时,快速进行恢复。
指挥调度在应急管理方面,可以根据事件,选择预案进行应急响应,执行应急流程。根据事件定义及事件上报流程管理,将事件与应急管理进行关联,以便按照应急流程处理该事件。
快恢中心进行全链路压测,解决生产环境无法精准容量规划的痛点。成本是等比环境和自研的40%;低侵入的积木式搭建;高精准的容量规划零误差。实现压测流量可识别、可传递、可落影子存储。所有涉及应用运维态安装探针,基本无需侵入代码。
快恢中心在多活容灾方面,具有单元分流能力,单元保护能力,单元协同能力,单元管控能力,单元扩展能力。支持流量管控,服务管控,数据管控。
平台在组织运营方面,实行工单管理。无缝流转,跨部门协同,一键转交。工单的使用场景不再局限于同部门,可以一键将工单高效流转到其他部门。企业内其他业务部门也能通过发起工单来进行跨部门的协作沟通。
支持实时提醒,信息必达,无疏漏。考虑到工单受理人不会实时在线,平台提供了针对工单受理人的邮件、钉钉等IM提醒服务,当有新工单时会发送消息提醒。
支持快速检索,多条件筛选,高效查询。用户能够按照工单标题、工单发起人、工单受理人、工单创建时间等多维度的搜索条件查询工单。系统支持数据导出服务,以达到信息价值最大化利用。
全场景的业务监控大屏,在运维中沉淀出的业务全景驾驶舱。针对汇报类场景或领导视察类场景。可以根据实际的业务需求,进行定制化处理。
五、安全生产平台的价值
安全生产平台的监控指标覆盖度达到99.5%,告警准确率达到95%,问题定位缩短到分钟级别。数据采集时间减少74%,数据处理能力提升86%,数据分析效率提升45%。
对业务与IT集中管控,从0到1建立监控体系,问题发现时间缩短87%,故障定位时间缩短52%。人工请求数减少67%,资源不足损失减少25%,基础设施/云投入减少15%。