更安全更稳定,阿里云斩获多项云系统稳定安全运行优秀案例

本文涉及的产品
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
简介: 近日,阿里云凭借在稳定性领域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。

近日,阿里云凭借在稳定性领域的全栈投入,获评中国信通院混沌工程实验室 2022 年度杰出贡献企业,并斩获“云系统稳定安全运行优秀案例”活动中多领域优秀案例。阿里云持续推动企业 IT 系统建设,保障千行百业安全稳定的实现数字化转型与创新。


此次“云系统稳定安全运行优秀案例”活动共收集超 100 份申报材料,历经多轮专家评审共评选出 7 个技术领域的众多优秀案例。旨在挖掘行业最佳实践案例,为众多企业的稳定安全运行提供参考。接下来,我们将为大家一一进行解读。


全链路压测优秀实践案例 :《阿里云全链路压测实践》


1.png


在数字化转型 & 升级背景下,政企客户逐步将业务应用迁移上云并进行分布式改造,业务架构也变得更加复杂。分布式环境下,任意节点都可能成为性能瓶颈,同时系统可用性随着业务快速增长,面临严峻且不确定的挑战。在此背景下,如何准确衡量应用能够承载的极限流量水位成为挑战。传统压测方法存在高成本、高复杂度、难以维护、压测结果不精准等劣势,而无法满足以精准流量模拟进行低成本容量预估的强需求。


阿里云全链路压测(End-to-end Performance Testing)正是为解决这个问题而诞生。全链路压测支持主流中间件,横跨 RPC、日志、存储、消息队列等种类,通过流量染色、标记透传,赋予施压过程以流量隔离的能力,使得在不污染生产库的前提下对真实的生产环境做压测,帮助客户获取最真实精准的生产环境抗压水位数据。


云系统运行故障应急处置实践案例:《阿里云数字化安全生产平台及落地实践》


2.png


随着越来越对企业业务应用上云并进行分布式架构改造,业务架构变愈发复杂,敏感程度也变高。传统运维手段存在工具割裂,面向基础设施而非业务,被动运维,缺乏面向分布式架构应用的规范稳定保障体系等劣势,使得有效保障业务稳定性和连续性成为挑战。


针对以上挑战,秉承着平台运维理念的数字化安全生产平台(Digital Production Stability)应运而生,平台核心面向 1- 5-10 应急响应场景,提供应急事件和故障的发现、响应和处理,提供应急场景的定义与管理、故障监控布防、故障上报、应急协同、过程跟踪、故障恢复、改进措施的全生命周期管理能力。帮助企业提升业务稳定性,提供故障应急场景的一站式服务。


云系统容灾优秀实践案例:《阿里云应用多活容灾解决方案》


3.png


为了预防和避免线上系统遭遇天灾人祸,保障业务持续运行并对外提供服务,通常有灾备、多活等多种方案。传统容灾大多建立在数据级容灾基础上,灾难发生时会在约定时间范围(RTO)内恢复运行,尽可能减少灾难带来的损失。但在实际实施时,由于灾备中心存在平时不提供服务,关键时刻无法确定是否成功切换;大体量业务无法解决单地域资源瓶颈;闲置状态成本浪费比较高等问题。


应用多活作为应用容灾的重要形式,在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到灾难发生。阿里云应用多活容灾解决方案具备分钟级RTO。恢复时间快。资源充分利用。资源不存在闲置的问题,多机房多资源充分利用,避免资源浪费。切换成功率高。流量精准控制。应用多活支持流量自顶到底封闭,依托精准引流能力将特定业务流量打入对应机房,企业可基于此优势能力孵化全域灰度、重点流量保障等特性。


在以上案例背后,我们可以看到软件行业需要标准化技术能力和方法论来保障线上业务稳定性。从 2018 年起,阿里巴巴集团致力于 IT 软件领域的安全生产建设:加强高可用架构基础建设的同时,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。


在 2022 杭州 · 云栖大会上,阿里云数字化安全生产平台 DPS 重磅发布,DPS 是以保障业务连续性为目标的一站式管控 SRE 平台,助力传统运维向 SRE 转型,企业级应用对业务连续性要求较高,若发生故障则资损严重,在SRE 转型初期就需要将安全生产理念纳入其中;对于以互联网架构为核心的中等规模业务,可以通过阿里云应用高可用服务 AHAS、压测服务 PTS 的产品体系来保障核心场景的稳定性和韧性,而自身则可以更加专注在业务创新中;对于中小规模的开发者,也可以通过阿里云提供的面向高可用的中间件框架和工具体系如 ChaosBlade、AppActive、Sentinel,构建自身的高可用体系。


可以看到安全生产是高可用的未来方向,阿里云通过完整产品家族,覆盖混沌工程、全链路压测、多活容灾、安全生产等企业安全生产场景,并灵活支持不同部署形式。帮助企业以云原生手段来应对业务高速迭代,促进业务与 IT 的全面协同,多维度来帮助客户建立完善专业的业务连续性保障体系。


4.png


云服务的运行稳定已成为信息通信行业安全生产的重要组成部分。确保云服务的稳定性和业务的连续性是为安全生产提供安全稳定的网络运行环境,意义重大,责任重大。阿里云一直坚持推动数字化转型与创新,帮助企业建立安全管理体系,健全安全责任制;同时,增强各类系统稳定性风险的防控能力与应对能力。建立云服务稳定运行标准体系及云服务可用性监测平台,促进云服务健康稳定持续发展。为金融、交通、电信、电力和制造等各行业和领域用户提供 IT 系统稳定性解决方案和服务。

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
相关文章
|
5月前
|
机器学习/深度学习 存储 监控
Elasticsearch 在日志分析中的应用
【9月更文第2天】随着数字化转型的推进,日志数据的重要性日益凸显。日志不仅记录了系统的运行状态,还提供了宝贵的洞察,帮助企业改进产品质量、优化用户体验以及加强安全防护。Elasticsearch 作为一个分布式搜索和分析引擎,因其出色的性能和灵活性,成为了日志分析领域的首选工具之一。本文将探讨如何使用 Elasticsearch 作为日志分析平台的核心组件,并详细介绍 ELK(Elasticsearch, Logstash, Kibana)栈的搭建和配置流程。
525 4
|
4月前
|
SQL 存储 数据库
SQL部分字段编码设置技巧与方法
在SQL数据库管理中,设置字段的编码对于确保数据的正确存储和检索至关重要
|
9月前
|
存储 消息中间件 Kafka
实时湖仓增强,Hologres + Flink构建企业级实时数仓
本文主要介绍Hologres+Flink构建的企业级实时数仓,实现全链路的数据实时计算、实时写入、实时更新、实时查询。
|
9月前
|
Cloud Native Dubbo Java
阿里云微服务引擎 MSE 2023 年 11 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。
|
弹性计算 数据可视化 程序员
码住!程序员高效工作的10个方法
作为一名程序员,高效工作是我们必须要具备的能力。以下是一些程序员高效工作的10个方法,希望对大家有所帮助。
|
消息中间件 弹性计算 运维
二维火:智能餐饮云端互联
随着物联网行业的快速发展,在就餐高峰期,海量终端设备与后台餐饮系统之间存在频繁的双向交互,比如订单消息、支付消息等,需要一款中间件作为终端设备与后台应用之间的消息通道!
4428 19
二维火:智能餐饮云端互联
|
Cloud Native Dubbo Java
阿里云微服务引擎 MSE 2023 年 8 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。
|
存储 SQL 运维
友邦人寿可观测体系设计与落地
面对微服务化、容器化改造,访问链路和部署复杂度的提升,如何更好地观测应用成为了无法回避的挑战。不妨看看友邦人寿如何进行可观测性建设规划与落地。
友邦人寿可观测体系设计与落地
|
Kubernetes 供应链 监控
合阔智云核心生产系统切换到服务网格 ASM 的落地实践
合阔智云提供了从全渠道交易管理到订单履约再到门店供应链完整的餐饮零售连锁解决方案,整个方案采取微服务设计,并深度使用了 Kubernetes 作为生产调度平台。
507 8
合阔智云核心生产系统切换到服务网格 ASM 的落地实践
Zookeeper命令行操作(常用命令;客户端连接;查看znode路径;创建节点;获取znode数据,查看节点内容,设置节点内容,删除节点;监听znode事件;telnet连接zookeeper)
8.1.常用命令 启动ZK服务 bin/zkServer.sh start 查看ZK服务状态 bin/zkServer.sh status 停止ZK服务 bin/zkServer.sh stop 重启ZK服务 bin/zkServer.sh restart 连接服务器 zkCli.sh -server 127.0.0.1:2181   8.2 客户端连接 运行
12553 1