数字化安全生产平台 DPS 重磅发布

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测链路 OpenTelemetry 版,每月50GB免费额度
简介: 十四五规划下,各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大,迭代速度加快,系统复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。

11 月 5 日,在 2022 杭州 · 云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型。


1.png

阿里巴巴资深技术专家 周洋


十四五规划下,各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大,迭代速度加快,系统复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。下述有几点典型场景和挑战:


场景一:分布式系统面临稳定性保障新挑战


近年来,虽然稳定性关注度日益提高,新技术蓬勃发展,重大故障依然频发且影响巨大。例如,2021年,某证券 IDC 故障 2 小时,导致客户无法交易,产生资损;某视频网站,服务器故障 3 小时无法访问,引发舆论……技术的不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击依然给生产带来极大风险。


场景二:政策引导IT系统稳定性建设平稳推进


随着数字化转型政策的推进,越来越多国民级应用诞生,大大方便了人们的日常生活,各个企业也相继推出自己的客户端。然而,大多数企业没有经历过多年互联网发展的锤炼,应对线上风险能力不足,亟需以最短时间完成稳定性运维能力的积累,少走弯路。


场景三:传统运维手段已无法满足要求


传统运维存在运维工具割裂、面向基础设施而非业务、被动运维、缺乏规范化的流程机制体系等问题。企业应遵循 SRE(Site Reliability Engineering)和平台运维(Platform Ops)的创新理念,通过软件来实现系统管理、问题发现、问题解决和自动化运维工作。


在现实生活中,无论建造摩天大楼还是家庭工程维护,在保证工程质量的同时,更重要的是避免出现安全事故,造成人员伤害,因此需要一套标准化的工艺流程、技术标准和验收手段等。在软件行业中,同样需要标准化的技术能力和方法论,来保障线上业务稳定性。于是,从 2018 年起,阿里巴巴集团便致力于 IT 软件领域的安全生产建设:一方面加强高可用架构的基础建设,另一方面,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。


为此,数字化安全生产平台(DPS)应势而生。DPS 浓缩了阿里巴巴十年运维经验,以 PlatformOps 为理念,以保障业务连续性为目标的一站式管控 SRE 运维平台,具备场景化、数字化和云原生化三大典型特征。


  • 场景化:DPS 以应急场景为中心,弱化组织架构带来的运维限制,同时,DPS 全面的监控和告警规则配置可以支持涵盖业务的各个场景。 


  • 数字化:DPS 提供数字化监控大屏、智能化告警、智能故障定位、白屏化故障快恢手段和数字化度量、人员管理等能力,为企业数字化进程添砖加瓦。 


  • 云原生化:DPS 以阿里云丰富的云原生产品作为技术支撑,且具备足够的开放性,可以与阿里云一方、二方和开源系统等进行关联。 


数字化安全生产平台 (DPS) 作为阿里巴巴集团数十年互联网探索的沉淀,在平台的架构和演进方面主要关注以下几点:


  • 明确目标和场景:安全生产是全局工程,其能力取决于木桶最短板。因此安全生产需要有明确的目标和场景,且保证主体框架的完整。 


  • 打通组织架构:安全生产不仅要解决人和系统、代码的问题,还需要解决人和人、人和制度的问题。因此安全生产需要阿里和行业的优秀技术在一个体系内集成和打通。 


  • 面向未来架构: 安全生产同时关注成本和减少损失。因此,安全生产需具有一定的抗技术周期性,架构设计除了要兼容最新的技术栈,也要面向未来架构进行设计。


2.png


数字化安全生产 DPS 支持两大典型业务场景:“1-5-10”故障快恢和“变更三板斧”故障预防。


“1-5-10”故障快恢


数字化安全生产平台提供对应急事件和故障的发现、响应和恢复的全生命周期管理。“1-5-10” 对应故障的“1 分钟发现 - 5 分钟响应- 10 分钟恢复”,是定义故障处理的时效性目标。


  • 1 分钟发现:通过建立围绕业务应用的全链路监控能力,能够实时监控业务健康度,如发现稳定性问题将秒级通报至应急保障服务组进行排查,降低故障发生的可能性。


  • 5 分钟响应:通过建立应急响应渠道和全链路故障定位能力,能够快速拉通故障排查人员,基于AIOps智能故障定位和基于ChatOps进行故障状态更新和通知流转,提升故障处理效率。  


  • 10 分钟恢复:通过建立完善的故障快恢体系,基于方案内置丰富的快恢能力,能够根据不同的故障类型智能化推荐合适的快恢预案,缩短故障恢复时长。


3.png


“变更三板斧”故障预防


数字化安全生产平台 DPS 将极易引发线上故障的变更操作纳入稳定性管控体系,做到对变更操作的“可观测、可灰度、可回滚”。


在“变更可管”方面,我们覆盖完善的变更系统,极大程度减少对变更系统的改造成本;在“变更可控”方面,我们提供基于时间、人员等维度的变更管控规则,预防可能出现的风险;在“变更可用”方面,我们可自动发现变更引发的故障,提供变更回滚等智能化快恢能力。


4.png


如果您对于数字化安全生产平台 DPS 有任何疑问,欢迎使用钉钉扫描二维码加入钉钉交流群,期待与您共创!


5.jpeg

相关文章
|
14天前
|
存储 SQL 安全
网络安全与信息安全:守护数字世界的坚盾在这个高度数字化的时代,网络安全和信息安全已经成为个人、企业乃至国家安全的重要组成部分。本文将深入探讨网络安全漏洞、加密技术以及安全意识的重要性,旨在为读者提供一个全面的网络安全知识框架。
随着互联网技术的飞速发展,网络安全问题日益凸显。从个人信息泄露到企业数据被盗,再到国家安全受到威胁,网络安全事件层出不穷。本文将从网络安全漏洞的定义与分类入手,探讨常见的网络攻击手段;随后深入解析加密技术的原理及其在保护信息安全中的作用;最后强调提升公众与企业的安全意识的重要性,并提出具体的建议。通过综合运用这些知识点,我们可以更好地构建起一道道坚固的防线,守护我们的数字世界。
|
2月前
|
机器学习/深度学习 人工智能 并行计算
GPU算力平台:数字化转型的核心驱动力
【8月更文第5天】随着人工智能(AI)、大数据分析以及高性能计算需求的不断增长,图形处理器(GPU)因其卓越的并行计算能力而成为加速这些领域的关键技术。GPU算力平台不仅能够显著提升计算效率,还能帮助企业更好地处理大规模数据集,支持复杂的机器学习模型训练,并促进实时数据分析。本文将探讨GPU算力平台在数字化转型中的核心作用,并通过示例代码展示其在实际应用中的优势。
120 1
|
1天前
|
安全 网络安全 区块链
网络安全与信息安全:构建数字世界的防线在当今数字化时代,网络安全已成为维护个人隐私、企业机密和国家安全的重要屏障。随着网络攻击手段的不断升级,从社交工程到先进的持续性威胁(APT),我们必须采取更加严密的防护措施。本文将深入探讨网络安全漏洞的形成原因、加密技术的应用以及提高公众安全意识的重要性,旨在为读者提供一个全面的网络安全知识框架。
在这个数字信息日益膨胀的时代,网络安全问题成为了每一个网民不可忽视的重大议题。从个人信息泄露到企业数据被盗,再到国家安全受到威胁,网络安全漏洞如同隐藏在暗处的“黑洞”,时刻准备吞噬掉我们的信息安全。而加密技术作为守护网络安全的重要工具之一,其重要性不言而喻。同时,提高公众的安全意识,也是防范网络风险的关键所在。本文将从网络安全漏洞的定义及成因出发,解析当前主流的加密技术,并强调提升安全意识的必要性,为读者提供一份详尽的网络安全指南。
|
13天前
|
人工智能 供应链 安全
网络安全与信息安全:构建数字世界的坚固防线在当今数字化时代,网络安全已成为维护个人隐私、企业机密和国家安全的重要基石。本文旨在探讨网络安全漏洞、加密技术及安全意识等关键领域,通过深入浅出的方式,引导读者理解网络安全的核心要素,并分享实用的防护策略,共同守护我们的数字世界。
随着互联网技术的飞速发展,网络安全威胁日益凸显,成为全球关注的焦点。本文聚焦网络安全的三大核心议题——网络安全漏洞、加密技术与安全意识,旨在揭示它们之间的相互关联与重要性。通过剖析真实案例,展现网络攻击的复杂性与破坏力;解析加密技术的原理与实践,强调其在保护数据安全中的关键作用;同时,倡导提升公众安全意识,构建多层次的网络安全防护体系。本文不仅为专业人士提供技术参考,也旨在提高普罗大众的网络安全认知,共同筑牢数字世界的安全防线。
|
14天前
|
SQL 安全 算法
网络安全与信息安全的守护之道在数字化时代,网络安全和信息安全已成为企业和个人不可忽视的重要议题。本文将探讨网络安全漏洞、加密技术以及安全意识等方面的知识,帮助您建立更安全的网络环境。
随着互联网技术的飞速发展,网络安全问题日益凸显,如何保护个人及企业的敏感信息成为亟待解决的难题。本文从网络安全漏洞、加密技术和安全意识三个方面展开,详细介绍了当前面临的主要安全威胁及应对策略,旨在提升公众的安全意识和防护能力。
|
20天前
|
机器学习/深度学习 安全 网络安全
云端盾牌:云计算时代的网络安全守护在这个数字脉搏加速跳动的时代,云计算以其高效、灵活的特性,成为推动企业数字化转型的强劲引擎。然而,正如每枚硬币都有两面,云计算的广泛应用也同步放大了网络安全的风险敞口。本文旨在探讨云计算服务中网络安全的关键作用,以及如何构建一道坚不可摧的信息防线,确保数据的安全与隐私。
云计算作为信息技术领域的革新力量,正深刻改变着企业的运营模式和人们的生活。但在享受其带来的便利与效率的同时,云服务的安全问题不容忽视。从数据泄露到服务中断,每一个安全事件都可能给企业和个人带来难以估量的损失。因此,本文聚焦于云计算环境下的网络安全挑战,分析其根源,并提出有效的防护策略,旨在为云服务的安全使用提供指导和参考。
|
22天前
|
存储 安全 网络安全
网络安全与信息安全:构建安全防线的多维策略在当今数字化时代,网络安全已成为维护个人隐私、企业机密和国家安全的关键要素。本文旨在探讨网络安全漏洞的本质、加密技术的重要性以及提升公众安全意识的必要性,以期为构建更加坚固的网络环境提供参考。
本文聚焦于网络安全领域的核心议题,包括网络安全漏洞的现状与应对、加密技术的发展与应用,以及安全意识的培养与实践。通过分析真实案例,揭示网络安全威胁的多样性与复杂性,强调综合防护策略的重要性。不同于传统摘要,本文将直接深入核心内容,以简洁明了的方式概述各章节要点,旨在迅速吸引读者兴趣,引导其进一步探索全文。
|
2月前
|
人工智能 搜索推荐 JavaScript
数字化产科管理平台覆盖的应用场景
数字化产科管理平台是专为医院产科设计的信息管理系统,通过数字化手段提升服务质量与管理效率。平台覆盖孕妇从怀孕到产后42天内的全流程健康管理,包括建档、产检、分娩、住院及产后随访等场景,并提供数据分析、远程医疗、智能管理等功能。系统采用Java开发,基于前后端分离架构,使用Vue和ElementUI前端框架,数据库为MySQL 8.0.36,已在多家三甲医院成功应用。
数字化产科管理平台覆盖的应用场景
|
27天前
|
云安全 安全 网络安全
探索云计算与网络安全的共生之道在数字化浪潮席卷全球的今天,云计算作为信息技术的一大革新,正重塑着企业的运营模式与服务交付。然而,随着云服务的普及,网络安全与信息安全的挑战也日益凸显,成为制约其发展的关键因素。本文旨在深入探讨云计算环境下的网络安全问题,分析云服务、网络安全及信息安全之间的相互关系,并提出相应的解决策略,以期为构建一个更安全、可靠的云计算生态系统提供参考。
本文聚焦于云计算环境中的网络安全议题,首先界定了云服务的基本概念及其广泛应用领域,随后剖析了当前网络安全面临的主要威胁,如数据泄露、身份盗用等,并强调了信息安全在维护网络空间秩序中的核心地位。通过对现有安全技术和策略的评估,包括加密技术、访问控制、安全审计等,文章指出了这些措施在应对复杂网络攻击时的局限性。最后,提出了一系列加强云计算安全的建议,如采用零信任架构、实施持续的安全监控与自动化响应机制、提升员工的安全意识教育以及制定严格的合规性标准等,旨在为云计算的安全可持续发展提供实践指南。
60 0
|
16天前
|
安全 算法 网络安全
网络安全与信息安全:构建数字世界的坚固防线在数字化浪潮席卷全球的今天,网络安全与信息安全已成为维系社会秩序、保障个人隐私和企业机密的关键防线。本文旨在深入探讨网络安全漏洞的本质、加密技术的前沿进展以及提升公众安全意识的重要性,通过一系列生动的案例和实用的建议,为读者揭示如何在日益复杂的网络环境中保护自己的数字资产。
本文聚焦于网络安全与信息安全领域的核心议题,包括网络安全漏洞的识别与防御、加密技术的应用与发展,以及公众安全意识的培养策略。通过分析近年来典型的网络安全事件,文章揭示了漏洞产生的深层原因,阐述了加密技术如何作为守护数据安全的利器,并强调了提高全社会网络安全素养的紧迫性。旨在为读者提供一套全面而实用的网络安全知识体系,助力构建更加安全的数字生活环境。