mPaaS云平台运维系列之—高可用架构介绍

本文涉及的产品
mPaaS订阅基础套餐,标准版 3个月
应用型负载均衡 ALB,每月750个小时 15LCU
传统型负载均衡 CLB,每月750个小时 15LCU
简介: mPaaS云平台运维系列之—高可用架构介绍

1 高可用架构介绍

高可用性(HighAvailability)指的是通过尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。
mPaas的专有云体系在通过集群技术、双机热备、健康检查等高可用技术,实现在部分节点故障的情况下,仍能提供继续访问应用的能力。

1.1 硬件层面高可用

由于AntStack是纯软件输出,对于部署所需的服务器资源,基于推荐的款型,可实现硬件层面的高可用,能够抵御磁盘、硬件级别的故障对于交换机、防火墙、存储等其他数据中心硬件设备的冗余如图1-1所示由用户自己保证。

image.png

图1-1 硬件设备高可用示意图

1.2 应用APP集群高可用

应用App集群高可用,主要体现在:
(1)采用负载均衡集群模式,将访问分担至多个实服务,当单个容器损坏时,不影响业务正常运行;
(2)核心应用的容器,强制互斥部署在不同的物理服务器上,保证当单个物理服务器宕机时,业务无影响;
(3)故障隔离,容器本身发生故障时,负载均衡的健康检查功能将故障容器隔离;
(4)故障的快速恢复,当一台物理服务器宕机时,之上的容器能够手动地在资源空闲的服务器上重启,容器恢复后,业务流量重新分配;
(5)对于磁盘、物理服务器的宕机,或者小规模的故障,不会影响业务的正常运行。

1.3 关键数据高可用

在AntStack中,提供数据存储能力的组件配置了数据备份策略或完整性保证;当单台容器或者单台物理机发生故障后,能够保证业务数据、关键管理数据不丢失如表1-1所示。

表1-1 关键组件高可用说明

序号

应用名称

类型

用途

数据完整性实现

1

OceanBase

分布式关系型数据库

管理数据、业务数据

OB集群保证

2

HBase

表格存储

监控数据

集群多副本保证

3

HDFS

分布式文件系统

HBASE、Spark

集群多副本保证

4

etcd

分布式数据库

AKE集群元数据

集群多副本保证

5

zookeeper

集群管理

ALB元数据

集群多副本保证

1.4 业务可监控、可恢复

1. 业务可监控

从核心态到业务应用监控全覆盖包括一下4个方面:
(1)以日志、REST接口等作为数据采集来源;
(2)提供应用、业务等各种视角的监控能力;
(3)快速发现问题、定位问题、分析问题、解决问题;
(4)为线上系统可用率提供有效保障

2. 应用可恢复
(1)在机房掉电的场景下,应用依赖满足后,可快速恢复;
(2)关键业务数据完整性保证;
(3)核心态中枢组件,通过容器宕机迁移实现恢复

1.5 发布灰度、可回滚

云游支持多种发布方式,可实现版本变更过程中先发一台,发布后进行灰度引流,确认功能无误后再进行下一组发布。发布过程满足变更三板斧:可灰度、可回滚、可监控,新版本如果不符合预期可快速回滚至升级前状态。

1.6 核心应用实现高可用

1. 云游高可用实现

如图1-2所示,云游的高可用主要体现下以下3个方面:
(1)云游应用采用负载均衡集群部署;通过VIP对外提供统一服务;
(2)数据库采用MySQL,主备方式进行数据同步;
(3)当主数据库宕机时,切换至备数据库,保证业务继续; 

image.png 

图1-2 云游高可用示意图

2. AKE管控高可用实现

如图1-3所示,AKE的高可用主要体现下以下2个方面:
(1) 管控容器集群部署;
(2) 管理元数据通过etcd三副本保存

image.png

图1-3 AKE高可用示意图

3. OceanBase高可用实现

如图1-4所示,OceanBase的高可用主要体现下以下3个方面:
(1) 所有应用数据库数据都存放于ob数据库;
(2) OB通过三副本保证数据高可用;
(3) 当一台机器损坏时,数据0丢失,业务无感知

image.png

图1-4 OceanBase高可用示意图

4.ALB高可用实现

如图1-5所示,ALB的高可用主要体现下以下4个方面:
(1) 四层负载均衡(F5)高可用由客户F5自身保证;
(2) 所有的ALB应用集群部署;
(3) ALBAPI / Manager等管理数据分别存在zookeeper和OB中;
(4) Spanner作为7层负载均衡冗余部署;当一个Spanner宕机时,流量自动切换到另一个Spanner上

image.png 

图1-5ALB高可用示意图

4.mPaa业务组件高可用实现

如图1-6所示,mPaaS业务组件的高可用主要体现下以下6个方面:
(1)负载均衡采用集群模式,将访问分担至多个实服务,当单个容器损坏时,不影响业务正常运行;
(2)核心应用的容器,强制互斥部署在不同的物理服务器上,保证当单个物理服务器宕机时,业务无影响;
(3)故障隔离,容器本身发生故障时,负载均衡的健康检查功能将故障容器隔离;
(4)故障的快速恢复,当一台物理服务器宕机时,之上的容器能够手动地在资源空闲的服务器上重启,容器恢复后,业务流量重新分配;
(5)关键数据存储于OB、HDFS、HBASE等存储组件,确保业务数据、关键管理数据不丢失;
(6)对于磁盘、容器、单台物理服务器的宕机,不会影响业务的正常运行。

image.png

图1-6 业务高可用示意图

目录
相关文章
|
2月前
|
SQL 监控 关系型数据库
MySQL主从复制:构建高可用架构
本文深入解析MySQL主从复制原理与实战配置,涵盖复制架构、监控管理、高可用设计及性能优化,助你构建企业级数据库高可用方案。
|
2月前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
3月前
|
运维 监控 搜索推荐
MSE ZooKeeper:Flink 高可用架构的企业级选择
本文深入解析了 Apache Flink 架构中 ZooKeeper 的核心作用,包括 Leader 选举、Checkpoint 管理、作业协调及配置管理等关键功能,并结合金融风控与电商推荐等典型场景,分析了 ZooKeeper 在实际应用中的技术实现。
|
29天前
|
运维 监控 安全
公链开发中的高可用架构设计要点
本指南提供公链高可用架构的可复用流程与模板,涵盖目标拆解、先决条件、分步执行、故障排查及验收标准,结合跨链DApp与量化机器人案例,提升落地效率与系统稳定性。
|
1月前
|
运维 Prometheus 监控
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
别再“亡羊补牢”了!——聊聊如何优化企业的IT运维监控架构
99 8
|
2月前
|
存储 监控 NoSQL
Redis高可用架构全解析:从主从复制到集群方案
Redis高可用确保服务持续稳定,避免单点故障导致数据丢失或业务中断。通过主从复制实现数据冗余,哨兵模式支持自动故障转移,Cluster集群则提供分布式数据分片与水平扩展,三者层层递进,保障读写分离、容灾切换与大规模数据存储,构建高性能、高可靠的Redis架构体系。
|
6月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
2151 57
|
4月前
|
文字识别 运维 监控
架构解密|一步步打造高可用的 JOCR OCR 识别服务
本文深入解析了JOCR OCR识别服务的高可用架构设计,涵盖从用户上传、智能调度、核心识别到容错监控的完整链路,助力打造高性能、低成本的工业级OCR服务。
224 0
架构解密|一步步打造高可用的 JOCR OCR 识别服务
|
3月前
|
运维 监控 安全
“没服务器了,那我这运维是白干了吗?”——无服务器架构对运维的冲击与转机
“没服务器了,那我这运维是白干了吗?”——无服务器架构对运维的冲击与转机
108 0
|
7月前
|
消息中间件 存储 设计模式
RocketMQ原理—5.高可用+高并发+高性能架构
本文主要从高可用架构、高并发架构、高性能架构三个方面来介绍RocketMQ的原理。
2577 21
RocketMQ原理—5.高可用+高并发+高性能架构