2022云栖精选—数字化安全生产平台DPS重磅发布 助力传统运维向SRE转型

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
容器镜像服务 ACR,镜像仓库100个 不限时长
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 周洋阿里云智能资深技术专家,高可用架构负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.png

11 5 日,在 2022 杭州·云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型。

 

 

image.png

阿里巴巴资深技术专家 周洋

 

十四五规划下,各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大,迭代速度加快,系统复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。下述有几点典型场景和挑战:

 

场景一:分布式系统面临稳定性保障新挑战

 

近年来,虽然稳定性关注度日益提高,新技术蓬勃发展,重大故障依然频发且影响巨大。例如,2021年,某证券 IDC 故障 2 小时,导致客户无法交易,产生资损;某视频网站,服务器故障 3 小时无法访问,引发舆论……技术的不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击依然给生产带来极大风险。

 

场景二:政策引导IT系统稳定性建设平稳推进

 

随着数字化转型政策的推进,越来越多国民级应用诞生,大大方便了人们的日常生活,各个企业也相继推出自己的客户端。然而,大多数企业没有经历过多年互联网发展的锤炼,应对线上风险能力不足,亟需以最短时间完成稳定性运维能力的积累,少走弯路。

 

场景三:传统运维手段已无法满足要求

 

传统运维存在运维工具割裂、面向基础设施而非业务、被动运维、缺乏规范化的流程机制体系等问题。企业应遵循 SRESite Reliability Engineering)和平台运维(Platform Ops)的创新理念,通过软件来实现系统管理、问题发现、问题解决和自动化运维工作。

 

在现实生活中,无论建造摩天大楼还是家庭工程维护,在保证工程质量的同时,更重要的是避免出现安全事故,造成人员伤害,因此需要一套标准化的工艺流程、技术标准和验收手段等。在软件行业中,同样需要标准化的技术能力和方法论,来保障线上业务稳定性。于是,从 2018 年起,阿里巴巴集团便致力于 IT 软件领域的安全生产建设:一方面加强高可用架构的基础建设,另一方面,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。

 

为此,数字化安全生产平台(DPS)应势而生。DPS 浓缩了阿里巴巴十年运维经验,以 PlatformOps 为理念,以保障业务连续性为目标的一站式管控 SRE 运维平台,具备场景化、数字化和云原生化三大典型特征。

 

  • 场景化:DPS 以应急场景为中心,弱化组织架构带来的运维限制,同时,DPS 全面的监控和告警规则配置可以支持涵盖业务的各个场景。
  • 数字化:DPS 提供数字化监控大屏、智能化告警、智能故障定位、白屏化故障快恢手段和数字化度量、人员管理等能力,为企业数字化进程添砖加瓦。
  • 云原生化:DPS 以阿里云丰富的云原生产品作为技术支撑,且具备足够的开放性,可以与阿里云一方、二方和开源系统等进行关联。

 

数字化安全生产平台(DPS)作为阿里巴巴集团数十年互联网探索的沉淀,在平台的架构和演进方面主要关注以下几点:

  • 明确目标和场景:安全生产是全局工程,其能力取决于木桶最短板。因此安全生产需要有明确的目标和场景,且保证主体框架的完整。 
  • 打通组织架构:安全生产不仅要解决人和系统、代码的问题,还需要解决人和人、人和制度的问题。因此安全生产需要阿里和行业的优秀技术在一个体系内集成和打通。 
  • 面向未来架构: 安全生产同时关注成本和减少损失。因此,安全生产需具有一定的抗技术周期性,架构设计除了要兼容最新的技术栈,也要面向未来架构进行设计。

 

image.png

 

数字化安全生产 DPS 支持两大典型业务场景:“1-5-10”故障快恢和变更三板斧故障预防。

 

“1-5-10”故障快恢

 

数字化安全生产平台提供对应急事件和故障的发现、响应和恢复的全生命周期管理。“1-5-10” 对应故障的“1 分钟发现 - 5 分钟响应- 10 分钟恢复,是定义故障处理的时效性目标。

 

  • 1 分钟发现:通过建立围绕业务应用的全链路监控能力,能够实时监控业务健康度,如发现稳定性问题将秒级通报至应急保障服务组进行排查,降低故障发生的可能性。 
  • 5 分钟响应:通过建立应急响应渠道和全链路故障定位能力,能够快速拉通故障排查人员,基于AIOps智能故障定位和基于ChatOps进行故障状态更新和通知流转,提升故障处理效率。  
  • 10 分钟恢复:通过建立完善的故障快恢体系,基于方案内置丰富的快恢能力,能够根据不同的故障类型智能化推荐合适的快恢预案,缩短故障恢复时长。

 

image.png

 

变更三板斧故障预防

 

数字化安全生产平台 DPS 将极易引发线上故障的变更操作纳入稳定性管控体系,做到对变更操作的可观测、可灰度、可回滚

 

变更可管方面,我们覆盖完善的变更系统,极大程度减少对变更系统的改造成本;在变更可控方面,我们提供基于时间、人员等维度的变更管控规则,预防可能出现的风险;在变更可用方面,我们可自动发现变更引发的故障,提供变更回滚等智能化快恢能力。

 

image.png

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png


相关文章
|
10月前
|
存储 运维 监控
什么是 SRE?一文详解 SRE 运维体系
什么是 SRE?一文详解 SRE 运维体系
1383 1
|
3月前
|
存储 安全 网络安全
云计算与网络安全:构建数字化安全堡垒
在当今数字化时代,云计算技术的快速发展为企业提供了更便捷高效的信息化解决方案,然而,随之而来的网络安全隐患也备受关注。本文将探讨云计算与网络安全的紧密关系,分析云服务、网络安全、信息安全等技术领域的发展现状,以及如何通过有效的策略和技术手段构建数字化安全堡垒,确保信息安全与数据隐私。
60 1
|
2月前
|
存储 安全 网络安全
云计算与网络安全:构建安全可靠的数字化未来
随着信息技术的快速发展,云计算和网络安全成为保障数字化未来的重要技术领域。本文将探讨云服务、网络安全和信息安全等关键技术,并重点介绍如何构建安全可靠的数字化未来。
25 0
|
3月前
|
数据采集 运维 监控
第8章:数字化引领革命:知识图谱与智能运维的魔幻交融
第8章:数字化引领革命:知识图谱与智能运维的魔幻交融
|
3月前
|
存储 运维 监控
「笔记」某移动 SRE 运维体系交流
「笔记」某移动 SRE 运维体系交流
|
3月前
|
人工智能 运维 安全
山东移动联合启明星辰推出专线卫士优享版,打造安全可靠的数字化环境!
11月28日,山东移动联合启明星辰信息技术集团股份有限公司成功举办主题为“安全新时代,护航新未来”的安全产品推介会。
|
9月前
|
新零售 人工智能 智能设计
2023云栖现场 | 阿里巴巴企业智能带你探索AI在企业办公数字化的实践
企业数字化是企业提升竞争力的必然选择,AI 技术的发展,更是为企业数字化转型提供了新的思路。 在2023年的云栖大会上,阿里巴巴企业智能展示了AI驱动下,在“人、财、法、事、物、场”等领域的数字化办公最新实践。将AI 技术与企业数字化各领域深度结合,碰撞出新的火花,让人眼前一亮。
|
Web App开发 安全 算法
沃通SSL证书助力公立医院数字化安全建设
沃通CA是工信部许可的权威CA机构,沃通WoSign SSL证书上线阿里云平台以来,成为阿里云平台热销的国产品牌证书,目前可在阿里云平台“数字证书管理服务”产品页【国产品牌证书】栏中,直接选购WoSign SSL证书。
749 2
 沃通SSL证书助力公立医院数字化安全建设
|
11月前
|
运维 新制造
易云维®数字化工厂运维平台带动更多企业踊跃融入数字化转型潮流
为帮助制造业大企业数字化智能化转型,能迪科技集团基于“数字低碳智能”的建设理念,按照《国家智能制造标准体系建设指南》的建设思路与目标,同时借鉴德国“工业4.0”及美国“智能制造生态系统”的建设思路,对我国工厂的智能制造信息化进行总体规划,推出了易云维®数字化工厂运维平台,旨在实现制造企业“一站式”的智能运营,提高运营效率,降低运行成本,保证运营质量。
131 0