阿里云数字化安全生产平台 DPS V1.0 正式发布!

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
函数计算FC,每月15万CU 3个月
可观测监控 Prometheus 版,每月50GB免费额度
简介: 数字化安全生产平台则帮助客户促进业务与 IT 的全面协同,从业务集中监控、业务流程管理、应急指挥响应等多维度来帮助客户建立完善专业的业务连续性保障体系。

作者:银桑、比扬


阿里云创立于 2009 年,是全球领先的云计算及人工智能科技公司。阿里云为 200 多个国家和地区的企业、公共机构和开发者,提供安全、可靠的云计算、大数据、人工智能等产品和服务。阿里云作为全国首家云等保试点示范平台和首家通过国家等保四级备案测评的云服务商,为中国超过一半的上市公司,为 80%中国科技创新企业提供云计算服务。


 众所周知,阿里巴巴双 11 是对业务来说是一个独一无二的挑战。在大促期间,集群规模超过百万,单集群规模达到 10000 以上。2019 年双 11 的数据库峰值能力达到 54.5 万笔订单每秒,数据库 TPS 达到 8700 万,实时计算 Blink 处理峰值达到 25 亿消息每秒,消息系统峰值达到 1.5 亿消息每秒。这些数值是对业务的极致性能和极致稳定性的要求,其中的业务稳定性离不开全面的高可用架构和手段来保障。阿里云在海量互联网服务以及历年双 11 场景的实践过程中,沉淀出了包括全链路压测、线上流量管控、故障演练、多活容灾和安全生产等高可用核心技术,并通过开源和云上云下服务的形式对外输出,以帮助企业用户和开发者享受技术红利,提升系统稳定性和业务连续性。 


11111111111.pngimage.gif

图 1:企业数字化安全生产解决方案:阿里巴巴业务连续性实践


 数字化安全生产平台(Digital Production Stability,简称 DPS)核心面向 1-5-10 应急响应场景,提供应急事件和故障的发现、响应和处理,提供应急场景的定义与管理、故障监控布防、故障上报、故障应急协同、故障过程跟踪、故障恢复、改进措施的全生命周期管理能力。帮助客户提升业务稳定性,为客户提供故障应急场景下的一站式服务。


如今,云原生已经成为企业数字化转型的关键策略,由于应用需要快速开发和交付,这就促使企业采用云原生的方法来开发应用,以提高效率,并增加灵活性。对于身处云原生时代的企业和开发者而言,不仅需要采用云原生的手段来应对业务的高速迭代,更要关注业可用及连续性管理建设。数字化安全生产平台则帮助客户促进业务与 IT 的全面协同,从业务集中监控、业务流程管理、应急指挥响应等多维度来帮助客户建立完善专业的业务连续性保障体系。


 数字化安全生产平台核心面向业务连续性管理,围绕业务提供风险预警、决策支撑、指挥调度和组织运营四大板块能力,同时每个板块由多个能力域共同组成,通过具体的业务场景(如 1-5-10 应急响应)串联整个业务流程。


  • 风险预警。通过监控中心、事件中心两大核心能力,提供基础设施、业务应用的实时监控信息,配合应急场景定义、监控项关联、事件响应与处理、ChatOps 协同等能力,为客户业务提供实时监控告警和风险通告,实时了解业务的运行情况。


  • 决策支撑。通过根因定位、智能分析和日志中心三大核心能力,在业务出现告警事件甚至故障的情况下,提供丰富的定位手段和数据来支撑业务变更决策。支持业务的智能巡检,指标关联类、调用异常类的根因定位;支持数据库调用、接口调用、应用性能和调用链的分析与查询。同时也支持多种日志类型采集与分析,从日志中查询业务运行情况。


  • 指挥调度。当业务告警事件或者故障需要面临变更时,通过与高可用产品的深度集成,提供丰富的变更处理手段来应对业务变更。流量防护提供应用防护和网关防护能力,可以配置多种流控规则来应对大流量或者服务不稳定调用的场景;开关预案提供快速的、有计划的变更处理。


  • 组织运营。业务的连续性管理不仅仅是保障应用的高可用,更多是业务人员的应急协同,从而为客户打造 SRE 型组织。平台提供组织协同管理、工单、知识库等能力,帮助客户将运维人员和业务应用通过流程化的方式进行协同管理,应急响应责任到人,通过工单、事件单和演练评测的方式等方式实现组织协同。


22222222.jpg

点击此处,了解阿里云云原生更多相关资讯~

相关文章
|
机器人 开发工具 Web App开发
干货满满!解密阿里云RPA (机器人流程自动化)的产品架构和商业化发展
阿里云RPA,作为阿里云自研8年的技术,在资本的热捧下,逐渐从幕后来到台前,成为企业服务市场的黑马。本文将从产品上全面剖析,阿里云RPA这款产品的现阶段情况,同时简单谈谈阿里云RPA的商业化进展。
7006 0
干货满满!解密阿里云RPA (机器人流程自动化)的产品架构和商业化发展
|
2月前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
620 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
7月前
|
人工智能 监控 数据可视化
智慧工地一体化解决方案(里程碑管理)源码
吊钩可视化监控系统 可智能自动追踪吊钩的运行轨迹,实现无死角作业;有效减少盲吊所引发的事故对地面指挥进行有效补充。
92 0
|
存储 数据采集 供应链
万界星空科技云MES系统生产全流程追溯功能介绍
关于MES制造执行系统中关于追溯功能的相关介绍。如果你有相关需求,欢迎扫码或者百度万界星空科技官网与我们联系。 我们将根据您企业的需求为您详细介绍解决方案,并发送相关行业案例给您,期待您的咨询!
98 0
万界星空科技云MES系统生产全流程追溯功能介绍
|
存储 运维 监控
阿里云发布工业物联数智平台 三位一体快速构建未来工厂
在2022云栖大会IoT智能峰会上,阿里云IoT发布的工业物联数智平台主要由架构+系统+生态三层体系构成。
746 15
阿里云发布工业物联数智平台 三位一体快速构建未来工厂
|
运维 监控 安全
数字化安全生产平台DPS重磅发布-助力传统运维向SRE转型
11 月 5 日,在 2022 杭州·云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型。演讲人:阿里云智能资深技术专家,高可用架构负责人周洋(中亭)
8603 6
数字化安全生产平台DPS重磅发布-助力传统运维向SRE转型
|
弹性计算 运维 监控
1-5-10 快恢在数字化安全生产平台 DPS 中的设计与落地
11 月 5 日,在 2022 杭州 · 云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型,在数字化安全生产平台 DPS 重磅发布中提到了 DPS 诞生的背景,希望解决的企业问题以及核心的功能点,其中提到了 DPS 目前的两大业务场景:"1-5-10"故障快恢和"变更三板斧"故障预防,本文将阐述 “1-5-10”故障快恢场景的背后的设计与实现。
1-5-10 快恢在数字化安全生产平台 DPS 中的设计与落地
|
运维 监控 安全
数字化安全生产平台 DPS 重磅发布
十四五规划下,各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大,迭代速度加快,系统复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。
数字化安全生产平台 DPS 重磅发布
|
存储 运维 监控
数字化安全生产平台V1.0正式发布
本文整理自阿里云云原生产品团队的比扬,在阿里云数字化安全生产平台DPS V1.0发布会的分享。
数字化安全生产平台V1.0正式发布
|
分布式计算 Cloud Native Oracle
阿里云发布《升舱-数仓升级交付标准化》白皮书,为申万宏源等客户提供“一步升舱”服务
阿里云正式发布《升舱-数据仓库升级交付标准化》白皮书,针对传统数据库仓库升级交付的方法、工具、平台等体系化建设提供最佳实践指引。
441 0
阿里云发布《升舱-数仓升级交付标准化》白皮书,为申万宏源等客户提供“一步升舱”服务