数字化安全生产平台V1.0正式发布

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
应用实时监控服务-用户体验监控,每月100OCU免费额度
简介: 本文整理自阿里云云原生产品团队的比扬,在阿里云数字化安全生产平台DPS V1.0发布会的分享。

数字化安全生产平台V1.0正式发布


摘要:本文整理自阿里云云原生产品团队的比扬,在阿里云数字化安全生产平台DPS V1.0发布会的分享。

本篇内容主要分为五个部分:

1.安全生产平台背景介绍

2.安全生产平台方案介绍

3.安全生产平台场景介绍

4.安全生产平台核心能力

5.安全生产平台的价值

 

一、安全生产平台背景介绍

image.png

 

在传统安全生产的过程中,企业通常不以业务连续性为导向。企业缺乏清晰的稳定性指标度量,缺乏标准的应急流程体系,职能不明确,应急过程混乱。企业的核心保障系统建设不足,比如监控,告警等能力层次不齐。除此之外,企业已有的稳定性保障手段散乱,无法通过流程有机结合。


为了解决上述问题,企业需要明确业务的连续性指标;企业必须针对业务连续性指标,选择针对性场景的落地方案。比如应急响应场景,容灾保障场景。


与此同时,企业需要建立,标准化的场景实施流程;补充缺失的保障能力,收敛管控已有的保障能力。职能明确到人,固化预案处理方案,不断丰富业务连续性的配置手段。比如监控够达到99%的覆盖,做到告警到人。

image.png

 

业务人员要保证业务连续、稳定、高可用。数字化安全生产要保证整个业务连续性和可度量。


随着度量值的不断提高,业务连续性成为最重要的目标。各个环节的安全生产效率实现数字化、可度量。然后,企业就能朝着度量的目标值,不断优化。


基于云原生的安全生产,有丰富的产品线,可以快速补充安全生产所需的能力,比如可观测领域、高可用领域等。


基于云原生的多样化的输出渠道,实现了产品的快速输出,提供了保障安全生产的能力。


基于阿里巴巴集团内部的最佳实践,电商业务最早实现了,适于阿里集团内部业务场景安全生产的最佳实践,通过每个团队业务连续性的度量标准评分。


阿里在每次的变更中记录、规范,从而形成一套相应的保障机制。保障运行是平稳运行。


与此同时,阿里在集团层面,推行应急保障文化,让所有产品研发,服务团队等相关人员的内心深处,有一股安全生产的影子。让所有员工意识到,所有的业务场景,都应该以保障安全生产为主。

 

二、安全生产平台方案介绍

image.png

安全生产有一个统一界面。在这个界面的基础上,阿里需要围绕业务场景,提供不同视角,帮助客户在安全生产周期中,完成不同的事。比如应急管理、变更、预警、可观测能力等。在这个门户的基础上,阿里涵盖了很多云原生、可观测、高可用、稳定性保障等矩阵化的能力。


以应对火灾为例。企业如果没有周而复始进行演练,当火灾真实发生时,工作人员可能会手忙脚乱。比如,如何保证人员安全输送?如何处理火灾蔓延?


阿里基于混沌工程理念的故障演练,围绕业务安全生产的各个方面,不断演练测试。最终出具一份贴合实际场景的评测报告。从而提升业务的一个可靠性。

除此之外,企业不但可以对业务的各个应用模块进行演练;也可以对承载业务部署的基础设施进行破坏性演练。


在稳定性防护方面,当业务上线之后,企业能够根据,实际的业务情况调整业务的运行预案,流量规则调配,容灾建设等等。


阿里安全生产的服务体系,经过大量最佳实践的沉淀,贴合业务自身的调研、评估,最后出具贴合客户业务的最佳方案。阿里安全生产的服务体系,根据实际的业务需求,评估安全生产的力度。

image.png

上图是数据安全生产体系大图。在这个基础上,安全生产平台提供了一种新型的运维管控和交付模式,能够快速为客户搭建监控一张图、运维一平台、接入一模式的安全生产体系。


安全生产平台需要对接集成相关的产品来形成业务场景所需的能力域,如监控域、预案域、演练域和防护域等。平台支持对接集成客户既有系统和三方产品。


安全生产平台围绕“发现-定位-解决”的逻辑结构提供风险预警、决策支撑、指挥调度和组织运营四大核心能力。支持能力对接集成的扩展性。

业务场景是由一组安全生产能力域组合,达成某个特定业务目的。平台支持多场景并行,平台以客户业务维度串联安全生产全流程,帮助客户解决某类业务的安全生产相关问题。

image.png

上图是安全生产平台的能力详解,主要有三个典型模块。第一,监控中心。平台可以从应用维度、业务维度、基础设施维度,全面对业务进行布控。通过不断定位,不断流转,提升监控项的覆盖度。


第二,事件中心。以事件中心的应急场景为例。应急场景是用户对故障的一种描述。对于开发人员来说,是某个函数出现了参数错误。应急场景需要跟很多监控项和业务应用,关联挂靠。当出现问题,平台通过监控告警就可以告知用户,快速按照预案执行,快速恢复。


第三,日志中心。平台通过日志手段,从网关到服务等各个层面的日志,全方位分析故障的时间点,给出一定的故障建议,排查建议。帮助用户做决策。

平台在阿里内部经过多年打磨,形成体系化的方法论沉淀。平台通过阿里外部的多年输出,已经在多个行业头部客户落地。平台围绕企业的应用架构,提供领域闭环的产品方案。平台围绕企业组织,提供定制化的适配方案。


平台围绕业务连续性场景,提供标准的服务能力和组织架构设计与咨询。平台的相关策略开放,核心技术无差别。支持生态开放,兼容主流的开源技术与标准。

 

三、安全生产平台场景介绍

image.png

1-5-10”是阿里集团内部孵化出的可度量、可量化的指标。即1分钟故障发现&1分钟故障通告;5分钟应急响应&5分钟快恢方案定位;10分钟故障恢复。


不管通过人为盯盘方式、人工方式还是对接监控系统。一旦出现,平台能够做到一分钟发现故障。


当一次故障发生之后,平台能够做到五分钟响应。通过应急小组,按照时间段、人员进行排班处理。五分钟内,相关人员响应,联系相关团队和产品线共同解决问题。在五分钟之内,团队给出一个恢复方案或预案处置。然后,在十分钟内,恢复故障。

image.png

如上图所示,基于安全生产落地“1-5-10”应急响应的核心流程。当出现应急场景,平台会对接监控告警系统,人工盯盘小组。然后快速生成事件单或者故障单。


相关人员响应之后,会对风险进行评估,确定是偶发性事件或重大事件。到五分钟定位阶段,相关人员会拉通相关的责任方,评估影响面,定位原因。在每一步的处理过程中,及时通告进展。


与此同时,在定位时,借助智能分析、日志检索,帮助人员快速定位,并给出相关预案方法。在恢复过程中,一旦定位出原因,可以快速线上变更,快速恢复业务。恢复业务之后,进行更新复盘、监控项检查等相关行为。帮助企业不断的改进。

image.png

在风险发现时,平台对接监控系统、告警系统。一旦发现故障,通过告警汇聚、事件汇聚,进行故障预判。一旦上升到故障级别,快速对故障进行推送处理,评估故障级别,进行故障定位,决策、恢复等。最后,通过复盘沉淀出相关的改进项。

 

四、安全生产平台核心能力

image.png


安全生产有四大核心能力:

第一,风险预警。在风险发现时,平台对接监控系统、告警系统。

第二,决策支撑。定位故障原因,快速进行业务变更,业务恢复。

第三,指挥调度。通过全盘调度,完成业务的恢复上线,重新上线。

第四,组织运营。在组织人员和啊流程化的层面。打通“1-5-10”的流程。


image.png

风险预警在监控中心方面,实现了基础设施到业务应用的全站实时监控。监控在整个IT运维体系中呃重要性,不言而喻。


监控中心,一方面能够做到灵敏的故障感知,另一方面可以辅助企业进行指挥调度。监控系统可以分析当前的流量峰值,辅助企业判断流控规则,流控的阀值设置。

image.png

风险预警在智能告警方面,当监控触发了之后,会进入统一的告警中心。经过告警事件的过滤、降噪等关联处理。最终,沉淀出最有价值、最核心的告警,并沉淀为事件。然后针事件,进行标准化、流程化的管控。

image.png

风险预警在故障管理方面,当事件出现之后,服务部通过查看,7×24小时的值班监控,评估事件等级。按照标准化的流程,记录相关时间,沉淀到考核标准。

image.png

上图是基于钉钉群的故障处理流程。每一步的操作进展,都能通过钉钉的自动化通告渠道,暴露出来。在钉钉的事件卡片中,完成事件的闭环处理,故障的闭环处理。

image.png

一旦事件发现了之后,数据检索功能会通过指标数据,辅助企业决策。最终获得有价值的决策数据,帮助企业快速定位故障原因。

image.png

根因分析可以在企业自己排查的过程中,个智能化更新定位。目前,内置六七十种故障场景,快速通过系统,智能化定位,生成原因的分析报告,帮助企业快速定位问题。

image.png

如果在可预知的范围内,通过历史故障的评估,分析出历史故障发生的情况。企业针对每次出现的情况,做了根因分析和处理手段的沉淀。可以将其转化为可执行的预案,在问题明确时,快速进行恢复。

image.png

指挥调度在应急管理方面,可以根据事件,选择预案进行应急响应,执行应急流程。根据事件定义及事件上报流程管理,将事件与应急管理进行关联,以便按照应急流程处理该事件。

image.png

快恢中心进行全链路压测,解决生产环境无法精准容量规划的痛点。成本是等比环境和自研的40%;低侵入的积木式搭建;高精准的容量规划零误差。实现压测流量可识别、可传递、可落影子存储。所有涉及应用运维态安装探针,基本无需侵入代码。

image.png

快恢中心在多活容灾方面,具有单元分流能力,单元保护能力,单元协同能力,单元管控能力,单元扩展能力。支持流量管控,服务管控,数据管控。

image.png

平台在组织运营方面,实行工单管理。无缝流转,跨部门协同,一键转交。工单的使用场景不再局限于同部门,可以一键将工单高效流转到其他部门。企业内其他业务部门也能通过发起工单来进行跨部门的协作沟通。


支持实时提醒,信息必达,无疏漏。考虑到工单受理人不会实时在线,平台提供了针对工单受理人的邮件、钉钉等IM提醒服务,当有新工单时会发送消息提醒。


支持快速检索,多条件筛选,高效查询。用户能够按照工单标题、工单发起人、工单受理人、工单创建时间等多维度的搜索条件查询工单。系统支持数据导出服务,以达到信息价值最大化利用。

image.png

全场景的业务监控大屏,在运维中沉淀出的业务全景驾驶舱。针对汇报类场景或领导视察类场景。可以根据实际的业务需求,进行定制化处理。

 

五、安全生产平台的价值

image.png

安全生产平台的监控指标覆盖度达到99.5%,告警准确率达到95%,问题定位缩短到分钟级别。数据采集时间减少74%,数据处理能力提升86%,数据分析效率提升45%


对业务与IT集中管控,从01建立监控体系,问题发现时间缩短87%,故障定位时间缩短52%。人工请求数减少67%,资源不足损失减少25%,基础设施/云投入减少15%

相关文章
|
1月前
|
安全 网络安全 区块链
网络安全与信息安全:构建数字世界的防线在当今数字化时代,网络安全已成为维护个人隐私、企业机密和国家安全的重要屏障。随着网络攻击手段的不断升级,从社交工程到先进的持续性威胁(APT),我们必须采取更加严密的防护措施。本文将深入探讨网络安全漏洞的形成原因、加密技术的应用以及提高公众安全意识的重要性,旨在为读者提供一个全面的网络安全知识框架。
在这个数字信息日益膨胀的时代,网络安全问题成为了每一个网民不可忽视的重大议题。从个人信息泄露到企业数据被盗,再到国家安全受到威胁,网络安全漏洞如同隐藏在暗处的“黑洞”,时刻准备吞噬掉我们的信息安全。而加密技术作为守护网络安全的重要工具之一,其重要性不言而喻。同时,提高公众的安全意识,也是防范网络风险的关键所在。本文将从网络安全漏洞的定义及成因出发,解析当前主流的加密技术,并强调提升安全意识的必要性,为读者提供一份详尽的网络安全指南。
|
2月前
|
存储 SQL 安全
网络安全与信息安全:守护数字世界的坚盾在这个高度数字化的时代,网络安全和信息安全已经成为个人、企业乃至国家安全的重要组成部分。本文将深入探讨网络安全漏洞、加密技术以及安全意识的重要性,旨在为读者提供一个全面的网络安全知识框架。
随着互联网技术的飞速发展,网络安全问题日益凸显。从个人信息泄露到企业数据被盗,再到国家安全受到威胁,网络安全事件层出不穷。本文将从网络安全漏洞的定义与分类入手,探讨常见的网络攻击手段;随后深入解析加密技术的原理及其在保护信息安全中的作用;最后强调提升公众与企业的安全意识的重要性,并提出具体的建议。通过综合运用这些知识点,我们可以更好地构建起一道道坚固的防线,守护我们的数字世界。
|
1月前
|
安全 算法 网络安全
网络安全与信息安全:守护数字世界的坚盾在这个高度数字化的时代,网络安全和信息安全已成为全球关注的焦点。无论是个人隐私还是企业数据,都面临着前所未有的风险和挑战。本文将深入探讨网络安全漏洞、加密技术以及安全意识的重要性,旨在为读者提供实用的知识,帮助构建更加安全的网络环境。
【10月更文挑战第4天】 在数字化浪潮中,网络安全与信息安全成为不可忽视的议题。本文通过分析网络安全漏洞的类型与成因,探讨加密技术的原理与应用,并强调提升安全意识的必要性,为读者提供一套全面的网络安全知识框架。旨在帮助个人和企业更好地应对网络威胁,保护数字资产安全。
112 65
|
8天前
|
数据可视化 开发工具 开发者
低代码/无代码平台:企业数字化转型的新动力
【10月更文挑战第31天】低代码/无代码(LCNC)平台正成为企业数字化转型的关键工具。本文介绍了LCNC平台的最新发展、核心优势、实施策略及关键工具,如Microsoft Power Apps、OutSystems和NocoBase,帮助企业快速响应市场变化,加速开发流程,降低技术门槛,提高业务敏捷性和降低成本。
|
12天前
|
Kubernetes Cloud Native 云计算
深度挖掘:云计算平台在数字化转型中的核心作用
【10月更文挑战第29天】作为一名技术博主,我深入探讨了云计算平台在数字化转型中的核心作用。本文分析了云计算的弹性、可扩展性和高可用性如何帮助企业快速适应市场变化,降低成本并提高效率。同时,文章介绍了云计算在创新加速、业务连续性和灾难恢复方面的优势,并通过实际案例展示了其在企业数字化转型中的应用。
34 0
|
2月前
|
人工智能 供应链 安全
网络安全与信息安全:构建数字世界的坚固防线在当今数字化时代,网络安全已成为维护个人隐私、企业机密和国家安全的重要基石。本文旨在探讨网络安全漏洞、加密技术及安全意识等关键领域,通过深入浅出的方式,引导读者理解网络安全的核心要素,并分享实用的防护策略,共同守护我们的数字世界。
随着互联网技术的飞速发展,网络安全威胁日益凸显,成为全球关注的焦点。本文聚焦网络安全的三大核心议题——网络安全漏洞、加密技术与安全意识,旨在揭示它们之间的相互关联与重要性。通过剖析真实案例,展现网络攻击的复杂性与破坏力;解析加密技术的原理与实践,强调其在保护数据安全中的关键作用;同时,倡导提升公众安全意识,构建多层次的网络安全防护体系。本文不仅为专业人士提供技术参考,也旨在提高普罗大众的网络安全认知,共同筑牢数字世界的安全防线。
139 10
|
28天前
|
JavaScript 前端开发 NoSQL
无界 SaaS 数字生态工具:去平台中心化助力企业数字化转型
无界 SaaS 数字生态工具通过去平台中心化助力企业数字化转型,涵盖技术实现、商业逻辑、数据架构、用户界面设计等多方面。本文提供了一个简化的框架和示例代码,包括前端(React.js)和后端(Node.js + Express)的实现,帮助企业和开发者快速启动项目。示例代码涵盖了用户注册、登录和产品列表的获取功能,并提供了安全性、用户认证、数据确权等方面的注意事项。
|
2月前
|
SQL 安全 算法
网络安全与信息安全的守护之道在数字化时代,网络安全和信息安全已成为企业和个人不可忽视的重要议题。本文将探讨网络安全漏洞、加密技术以及安全意识等方面的知识,帮助您建立更安全的网络环境。
随着互联网技术的飞速发展,网络安全问题日益凸显,如何保护个人及企业的敏感信息成为亟待解决的难题。本文从网络安全漏洞、加密技术和安全意识三个方面展开,详细介绍了当前面临的主要安全威胁及应对策略,旨在提升公众的安全意识和防护能力。
37 1
|
1月前
|
安全 大数据 网络安全
网络安全与信息安全:守护数字世界的坚盾在数字化浪潮席卷全球的今天,网络安全已成为维系社会稳定、促进经济发展的重要基石。本文旨在深入探讨网络安全漏洞、加密技术及安全意识等核心议题,通过分享前沿知识与实用策略,助力构建更加安全可靠的网络环境。
【10月更文挑战第8天】 本文聚焦网络安全领域的关键要素,包括安全漏洞的识别与防御、加密技术的演进与应用,以及安全意识的培养与提升。通过对最新研究成果和实际案例的分析,文章揭示了网络安全威胁的多样性和复杂性,强调了综合防护策略的重要性。同时,倡导社会各界共同参与,形成全民网络安全意识,共筑数字空间的安全防线。
53 0
|
2月前
|
机器学习/深度学习 Dart 前端开发
移动应用与系统:构建现代数字生态的基石在当今这个高度数字化的社会中,移动应用与操作系统已成为我们日常生活不可或缺的一部分。它们不仅改变了我们的沟通方式,还重塑了我们的工作、学习和娱乐模式。本文将深入探讨移动应用开发的基础、移动操作系统的功能以及这两者如何共同塑造了我们的数字世界。
随着智能手机和平板电脑的普及,移动应用与系统的重要性日益凸显。它们不仅为用户提供了便捷的服务和丰富的功能,还为开发者提供了广阔的创新平台。本文将介绍移动应用开发的基本概念、技术栈以及最佳实践,并探讨主流移动操作系统的特点和发展趋势。通过分析移动应用与系统的相互作用,我们可以更好地理解它们在现代社会中的重要地位。