更安全更稳定,阿里云斩获多项云系统稳定安全运行优秀案例

本文涉及的产品
Serverless 应用引擎 SAE,800核*时 1600GiB*时
可观测监控 Prometheus 版,每月50GB免费额度
简介: 近日,阿里云凭借在稳定性领域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。

近日,阿里云凭借在稳定性领域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。


此次“云系统稳定安全运行优秀案例”活动共收集超 100 份申报材料,历经多轮专家评审共评选出 7 个技术领域的众多优秀案例。旨在挖掘行业最佳实践案例,为众多企业的稳定安全运行提供参考。接下来,我们将为大家一一进行解读。


全链路压测优秀实践案例 :《阿里云全链路压测实践》


1.png


在数字化转型 & 升级背景下,政企客户逐步将业务应用迁移上云并进行分布式改造,业务架构也变得更加复杂。分布式环境下,任意节点都可能成为性能瓶颈,同时系统可用性随着业务快速增长,面临严峻且不确定的挑战。在此背景下,如何准确衡量应用能够承载的极限流量水位成为挑战。传统压测方法存在高成本、高复杂度、难以维护、压测结果不精准等劣势,而无法满足以精准流量模拟进行低成本容量预估的强需求。


阿里云全链路压测(End-to-end Performance Testing)正是为解决这个问题而诞生。全链路压测支持主流中间件,横跨 RPC、日志、存储、消息队列等种类,通过流量染色、标记透传,赋予施压过程以流量隔离的能力,使得在不污染生产库的前提下对真实的生产环境做压测,帮助客户获取最真实精准的生产环境抗压水位数据。


云系统运行故障应急处置实践案例:《阿里云数字化安全生产平台及落地实践》


2.png


随着越来越对企业业务应用上云并进行分布式架构改造,业务架构变愈发复杂,敏感程度也变高。传统运维手段存在工具割裂,面向基础设施而非业务,被动运维,缺乏面向分布式架构应用的规范稳定保障体系等劣势,使得有效保障业务稳定性和连续性成为挑战。


针对以上挑战,秉承着平台运维理念的数字化安全生产平台(Digital Production Stability)应运而生,平台核心面向 1- 5-10 应急响应场景,提供应急事件和故障的发现、响应和处理,提供应急场景的定义与管理、故障监控布防、故障上报、应急协同、过程跟踪、故障恢复、改进措施的全生命周期管理能力。帮助企业提升业务稳定性,提供故障应急场景的一站式服务。


云系统容灾优秀实践案例:《阿里云应用多活容灾解决方案》


3.png


为了预防和避免线上系统遭遇天灾人祸,保障业务持续运行并对外提供服务,通常有灾备、多活等多种方案。传统容灾大多建立在数据级容灾基础上,灾难发生时会在约定时间范围(RTO)内恢复运行,尽可能减少灾难带来的损失。但在实际实施时,由于灾备中心存在平时不提供服务,关键时刻无法确定是否成功切换;大体量业务无法解决单地域资源瓶颈;闲置状态成本浪费比较高等问题。


应用多活作为应用容灾的重要形式,在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到灾难发生。阿里云应用多活容灾解决方案具备分钟级RTO。恢复时间快。资源充分利用。资源不存在闲置的问题,多机房多资源充分利用,避免资源浪费。切换成功率高。流量精准控制。应用多活支持流量自顶到底封闭,依托精准引流能力将特定业务流量打入对应机房,企业可基于此优势能力孵化全域灰度、重点流量保障等特性。


在以上案例背后,我们可以看到软件行业需要标准化技术能力和方法论来保障线上业务稳定性。从 2018 年起,阿里巴巴集团致力于 IT 软件领域的安全生产建设:加强高可用架构基础建设的同时,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。


在 2022 杭州 · 云栖大会上,阿里云数字化安全生产平台 DPS 重磅发布,DPS 是以保障业务连续性为目标的一站式管控 SRE 平台,助力传统运维向 SRE 转型,企业级应用对业务连续性要求较高,若发生故障则资损严重,在SRE 转型初期就需要将安全生产理念纳入其中;对于以互联网架构为核心的中等规模业务,可以通过阿里云应用高可用服务 AHAS、压测服务 PTS 的产品体系来保障核心场景的稳定性和韧性,而自身则可以更加专注在业务创新中;对于中小规模的开发者,也可以通过阿里云提供的面向高可用的中间件框架和工具体系如 ChaosBlade、AppActive、Sentinel,构建自身的高可用体系。


可以看到安全生产是高可用的未来方向,阿里云通过完整产品家族,覆盖混沌工程、全链路压测、多活容灾、安全生产等企业安全生产场景,并灵活支持不同部署形式。帮助企业以云原生手段来应对业务高速迭代,促进业务与 IT 的全面协同,多维度来帮助客户建立完善专业的业务连续性保障体系。


4.png


云服务的运行稳定已成为信息通信行业安全生产的重要组成部分。确保云服务的稳定性和业务的连续性是为安全生产提供安全稳定的网络运行环境,意义重大,责任重大。阿里云一直坚持推动数字化转型与创新,帮助企业建立安全管理体系,健全安全责任制;同时,增强各类系统稳定性风险的防控能力与应对能力。建立云服务稳定运行标准体系及云服务可用性监测平台,促进云服务健康稳定持续发展。为金融、交通、电信、电力和制造等各行业和领域用户提供 IT 系统稳定性解决方案和服务。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
1天前
|
存储 运维 监控
阿里云 SAE 助力修正商城 3 周内提升系统承载能力 20 倍,轻松应对春晚流量
在 2024 年春节前夕,修正电商事业部面临了前所未有的技术挑战,修正将参与春晚的全民健康好礼派发的活动,且在央视及各大平台进行广告投放,预计流量激增至 16 亿,系统需要承载保底 5 万 QPS,目标 10 万 QPS。修正技术团队迫切需要升级 APP 架构以应对即将到来的超高并发场景。这一挑战不仅是对技术的考验,更是对修正品牌实力的一次展示。为了应对这次巨大的技术挑战,修正技术团队选择与阿里云云原生团队合作,进行 APP 架构的升级。
|
4天前
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用问题之在流水线中无法运行已在系统环境变量中配置的可执行命令,是什么导致的
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
4天前
|
前端开发 测试技术 API
阿里云云效产品使用问题之在流水线的构建任务中,如何安装并运行Jest
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
阿里云云效产品使用问题之在流水线的构建任务中,如何安装并运行Jest
|
4天前
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用问题之流水线如何在运行过程中设置(或者说是变更)自定义环境变量
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
6天前
|
人工智能 安全 Go
使用阿里云服务网格 ASM LLMProxy 插件保障大模型用户数据安全
本文介绍如何使用ASM LLMProxy动态为LLM请求添加API_KEY、使用模式匹配以及私有大模型判别请求敏感信息并根据判别结果拒绝请求等功能,帮助用户提升LLM场景下的安全水位。
|
7天前
|
网络安全
阿里云8888端口设置安全组,宝塔控制台显示链接失败
阿里云8888端口设置安全组,宝塔控制台显示链接失败
9 0
|
7天前
|
分布式计算 算法 Java
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
阿里云ODPS PySpark任务使用mmlspark/synapseml运行LightGBM进行Boosting算法的高效训练与推理
|
12天前
|
弹性计算 关系型数据库 MySQL
阿里云ECS如何部署并运行一个JavaWeb项目
阿里云ECS如何部署并运行一个JavaWeb项目
37 0
|
18天前
|
人工智能 JavaScript 测试技术
《AIGC+软件开发新范式》--10.阿里云参编业内首个代码大模型标准,通义灵码获 2023 AI4SE “银弹” 案例
在AI 热度持续上升的当下,阿里云推出AI智能编码助手—通义灵码。通义灵码是一款基于阿里云通义代码大模型打造的智能编码助手,基于海量优秀开源代数据集和编程教科书训练,为开发者带来高效、流畅的编码体验。
|
21天前
|
网络协议 安全 调度
阿里云公共DNS发布支持鸿蒙系统版的SDK
阿里云公共DNS发布支持鸿蒙系统版SDK,赋能鸿蒙开发者快速接入阿里云公共DNS服务。公共DNS将帮助接入的鸿蒙应用免除LocalDNS劫持困扰、解析加速、精准调度。