2022 年 4 月 26 日,由中国信息通信研究院(以下简称“中国信通院”)主办的“稳保计划”——首届云系统稳定性大会”在京召开。会上,中国信通院公布了“应用多活架构能力”最新的评估成果,阿里云成为首个通过应用多活“先进级”能力评估的企业,并由中国信通院副院长魏亮、中国信通院云计算与大数据研究所所长何宝宏为阿里云颁发了证书。
阿里云与应用多活
“应用多活”是“应用容灾”技术的一种高级形态,指在同城或异地机房建立一套与本地生产系统部分或全部对应的生产系统,所有机房内的应用同时对外提供服务。当灾难发生时,多活系统可以分钟级内实现业务流量切换,用户甚至感受不到灾难发生。
阿里巴巴于 2007 年起开始探索同城应用多活架构能力,2013 年开始建设远距离异地应用多活架构能力,逐步升级到多数据中心多单元的应用多活。2019 年为服务集团上云应用和外部客户,阿里正式把应用多活能力对外商业化,阿里云应用多活平台由此孵化而出,成为阿里云高可用商业化家族产品中的一员。
阿里云应用多活平台 MSHA
阿里云应用多活平台 MSHA(Multi-Site High Availability)是业内最早的应用多活平台,基于服务集团百万应用节点的经验,从多个纬度对应用多活架构进行优化升级,在复杂的异地应用多活场景中,以标准化的产品组件能力,帮助企业低成本具备高可靠多站点多活能力。作为拥有十多年的应用多活建设经验的产品,阿里云应用多活平台服务的客户覆盖数字政府、物流、能源、通信、互联网等十余个不同领域,产品丰富度和能力领先于业内。
阿里云应用多活平台包含容灾多活控制台、容灾网关、应用插件等子组件,覆盖入口流量、微服务、消息、数据库等业务场景,基于业内通用和阿里云商业化 PaaS 基础能力,二次增强植入应用多活特性,降低业务系统的接入成本。
阿里云应用多活平台的核心优势:
- 稳定性
作为阿里巴巴双十一官方当天数据中心切换平台,支撑阿里巴巴的交易平稳切换,历经数年高可用与高可靠的严苛考验。作为应用多活平台, 平台对自身稳定性提出高于业务应用的要求,保证在灾难场景下的平台可用,平台围绕断网、断电、系统故障、数据库故障、上下游依赖故障等场景进行稳定性建设,依托常态化演练保鲜平台容灾能力。
- 丰富的容灾架构
从单 Region 到多 Region,从单元到多云,从主备到多活的不同场景下,阿里云应用多活平台针对不同发展阶段的客户提供分等级的应用多活能力。企业基于实际的物理环境、业务规模、容灾诉求、容灾成本,选择当下最合适的容灾架构。随着企业业务的发展,阿里云应用多活平台提供平滑的架构演进升级能力,避免架构升级导致的成本浪费。
- 一站式容灾管控
企业建设应用多活体系,涉及应用、中间件、基础设施等多系统协同。阿里云应用多活平台提供完整的业务架构生命周期管理。基于平台,企业一站式完成业务容灾架构的上线,运维,演练,升级等过程。平台覆盖业务流量的完整路径以保障企业应用全流量管控,包括流量接入、服务化调用、异步化消息、数据落库等路径。
- 分钟级容灾切换
基于确定性的容灾切换流程编排和统一规则控制特性,在灾难发生时,企业在阿里云应用多活平台上对纳管的复杂业务及组件进行统一的容灾切换,避免人工协同及操作流程不规范导致的故障恢复失败风险。在实际生产实践中,平台达到最高秒级,最低分钟级的 RTO 指标要求。
依托于阿里云应用多活平台的核心特性,来自全球各行各业的众多企业沉淀了许多通用使用场景。例如:
- IDC 上云场景:基于阿里云应用多活平台提供的混合云双活方案,保障企业在利旧原有基础设施的同时享受云上云原生的便利,为后续全站上云提供稳定可靠的途径;
- 远距离故障应急场景:企业原本陷于灾备方案中的资源瓶颈问题和切换成功率问题困扰,在 MSHA 的远距离异地应用多活的产品能力下,企业 3 个月完成架构升级,故障场景的 RTO 生产实践控制在 1分钟;
- 业务快跑和引入新技术解决问题却故障频繁的场景:阿里云应用多活平台的逻辑数据中心封闭和快速逃逸能力,使得企业构建出新技术逻辑数据中心进行小步快跑试点验证,控制故障的爆炸半径,出现故障立刻切流恢复线上业务,保障业务即快又稳飞速演进。
伴随着云原生时代到来,云已经变成一个主流的 IT 基础设施,故障容灾从行业头部企业到中小规模企业都是需要面临的挑战。应用多活技术作为容灾领域核心且有效的技术,也从领先企业尝鲜变为主流企业必备。当前企业内部云原生应用多活发展不均,需标准化引导和建设。此次的应用多活认证是信通院对应用多活容灾行业的进一步完善。阿里云一直致力于推动云原生在国内的普及和落地,后续也将与信通院一起促进中国云原生应用多活市场的规范化、标准化发展。
关于应用多活架构能力评估
当前云原生化的分布式架构复杂,多样的服务彼此依赖,架构更迭速度日益加快,业务系统稳定性对容灾能力提出更高要求。应用多活是以应用为中心的云原生容灾架构,确保当灾难发生时可在较短时间内实现业务流量切换,尽可能减少灾难带来的损失,有效保障业务系统持续稳定运行。
《应用多活架构能力要求》标准由中国信息通信研究院牵头,编制参与单位包括阿里云等数十家企业。本标准的编写过程获得了业界极高关注度,也得到了诸多企业专家的大力支持。 基于当前分布式系统稳定性的发展现状与痛点,可信云(可信云是中国信息通信研究院下属的云计算服务评估品牌,也是我国针对云计算服务的权威评估体系)推出应用多活架构能力评估标准,助力企业增强核心业务的连续性及抗风险能力,保证核心业务的稳定、持续运转。
点击此处,前往多活容灾 MSHA 官网查看更多详情!