实现服务高可用奇淫技巧(一)

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
简介: 实现服务高可用奇淫技巧(一)

微信图片_20220523100633.png

1、前言



在上一篇通知文章有说过,六月份会开始更新公众号,虽然现在已到月底了,但好歹也算没有失言,赶上了末班车了。


公众号中有很多读者留言,大家很期待能继续更新《RF接口自动化系列》文章,放心,牛奶会有的,面包也会有的,自己答应大家的,含泪也有完成的。


不过本篇仍不会更新《RF接口自动化系列》的文章,放心,后续会更新,敬请期待~


本篇会给大家介绍一下服务高可用的实现,大致也会分几篇文章进行讲解。


为什么突然会讲服务高可用,请看【背景】章节!



2、背景



目前我们组内的主服务器docker主机(ubuntu系统),承载运行了我们组内(效率提升组)大部分对外提供的关键平台服务


先来看一张图吧

微信图片_20220523100810.png

简单粗暴地画了一张精简图,从上图中直观地反映我们docker主机的一个简要架构图(如果你觉得真实部署架构也是如此简单, 那只能说明你还是太年轻了),用户访问我们的应用服务,如访问qa.ppmoney.com应用服务(A),经过nginx代理,由nginx反向代理到实际应用服务A中。

 

这是常规应用部署最简单的单点结构,但作为这类关键服务节点,如果某天docker主机嗝屁了,那就意味着,所有运行在docker应用服务,就无法对外提供服务,可能有的人会说,这种情况,一般来说不会发生吧,好吧,前不久就发生的一宗因为机房中服务异常断电,重启后磁盘启动异常的案例。

 

所以就引出了本文,通过高可用的方案来解决应用单点部署当发生异常长时间无法对外提供服务的问题!


3、请高可用与负载均衡的区别



  • 高可用集群中的节点一般是一主一备,或者一主多备,通过备份提高整个系统可用性。
  • 而负载均衡集群一般是多主,每个节点都分担请求流量


4、实现高可用的常用工具



  • ngnix
  • lvs(Linux虚拟服务器,是一个虚拟的服务器集群系统)
  • HAProxy(HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理,支持虚拟主机,它是免费、快速并且可靠的一种解决方案。)
  • keepalived(这里说的keepalived不是apache或者tomcat等某个组件上的属性字段,它也是一个组件,可以实现web服务器的高可用(HA high availably)。它可以检测web服务器的工作状态,如果该服务器出现故障被检测到,将其剔除服务器群中,直至正常工作后,keepalive会自动检测到并加入到服务器群里面。实现主备服务器发生故障时ip瞬时无缝交接。它是LVS集群节点健康检测的一个用户空间守护进程,也是LVS的引导故障转移模块(director failover)。Keepalived守护进程可以检查LVS池的状态。如果LVS服务器池当中的某一个服务器宕机了。keepalived会通过一 个setsockopt呼叫通知内核将这个节点从LVS拓扑图中移除。)


5、高可用不能解决什么



高可用也就是大家常说的HA(High Availability),高可用的引入,是通过设计减少系统不能提供服务的时间,而不能保证系统可用性是能达到100%的!



6、高可用实施中有哪些问题需要解决


高可用保证的原则是“集群化”,或者叫“冗余”:只有一个单点,挂了服务会受影响;如果有冗余备份,挂了还有其他backup能够顶上。

保证系统高可用,架构设计的核心准则是:集群。

有了集群之后,还不够,每次出现故障需要人工介入恢复势必会增加系统的不可服务实践。所以,又往往是通过“自动故障转移”来实现系统的高可用。

 

所以,实现高可用的两个关键点

  • 集群化
  • 自动故障转移



对于服务而言,一旦某个服务器宕机,就将服务切换到其他可用的服务器上;

对于数据而言,如果某个磁盘损坏,就从备份的磁盘(事先就做好了数据的同步复制)读取数据。




结合我们上图来看,要实现高可用的需要解决几个问题

1、服务集群化,需要增加服务物理机 (利用现有的服务机或者新增购买一台新的服务机,建议后者)

2nginx请求代理集群(请求入口需引入集群,否则应用服务有集群,nginx挂了,照样game over,所以需要解决如何让nginx可以集群,并能自动故障转移

3、应用服务集群(服务不能单点部署,需集群部署,一个服务提供者挂了,其它可以顶上,所以需要解决如何让应用服务可以集群,并且服务异常可自动故障转移)

4、实现集群后,需保证集群间持久数据层是能保持同步一致的(mysql db、mongo db)

5、应用服务器集群的Session管理。



7、高可用架构实践方案




整个系统的高可用,其实就是通过每一层的集群(冗余)+自动故障转移来综合实现的。


正如上述在需要解决的问题中,提到的:


1、要解决【客户端层→反向代理层】的高可用:


【客户端层】到【反向代理层】的高可用,是通过反向代理层的集群(冗余)来实现的。以nginx为例:需要准备至少两台nginx,一台对线上提供服务,另一台冗余以保证高可用,常见的实践是keepalived存活探测,相同virtual IP提供服务。

 

【正常图】:

微信图片_20220523100947.png

【其中一台nginx嗝屁了】:

微信图片_20220523101016.png

自动故障转移:当nginx挂了的时候,keepalived能够探测到,会自动的进行故障转移,将流量自动迁移到另外一台nginx,由于使用的是相同的virtual IP,这个切换过程对调用方是透明的。



2、要解决【反向代理层→应用服务站点层】的高可用


【反向代理层】到【站点层】的高可用,是通过站点层的集群(冗余)来实现的。假设反向代理层是nginx,nginx.conf里能够配置多个web后端,并且nginx能够探测到多个后端的存活性。

 

【正常图】:

微信图片_20220523101046.png


其中一台站点服务嗝屁了】:

微信图片_20220523101130.png

自动故障转移:当web-server服务站点挂了的时候,nginx能够探测到,会自动的进行故障转移,将请求自动迁移到其他的web-server,整个过程由nginx自动完成,对调用方是透明的。


3、虽然我们的服务应用,没有怎么用到了缓存,但还是想补充一个小章节说一下,【服务层】到【缓存层】的高可用

缓存层的数据集群有几种方式:第一种是利用客户端的封装,service对cache进行双读或者双写,也可以通过主从同步的缓存来解决缓存层的高可用问题。


以redis为例,redis天然支持主从同步,redis官方也有sentinel哨兵机制,来做redis的存活性检测。



【正常图】

微信图片_20220523101152.png

 

【reids-Master嗝屁了】

微信图片_20220523101213.png

自动故障转移:当redis主挂了的时候,sentinel能够探测到,会通知调用方访问新的redis,整个过程由sentinel和redis集群配合完成,对调用方是透明的。




注:实际小型业务对缓存并不一定有“高可用”要求,更多的对缓存的使用场景,是用来“加速数据访问”:把一部分数据放到缓存里,如果缓存挂了或者缓存没有命中,是可以去后端的数据库中再取数据的。(当然一些大型的流量平台除外)



4、【服务层>数据库层】的高可用


数据库层一般集群化都会采用了“主从同步,读写分离”架构,


以mysql为例,可以设置两个mysql双主同步,一台对线上提供服务,另一台冗余以保证高可用,常见的实践是keepalived存活探测,相同virtual IP提供服务。


【正常图】

微信图片_20220523101352.png

【其中一台数据库嗝屁了】

微信图片_20220523101426.png


自动故障转移:当其中一个数据库挂了的时候,keepalived能够探测到,会自动的进行故障转移,将流量自动迁移到shadow-mysql,由于使用的是相同的virtual IP,这个切换过程对调用方是透明的。


5、再来看看应用服务器集群的Session管理,在集群环境下,Session管理的几种常见手段:


  • Session复制:集群中的几台服务器之间同步Session对象,任何一台服务器宕机都不会导致Session对象的丢失,服务器也只需要从本机获取即可
  • Session绑定:利用负载均衡的源地址Hash算法,总是将源于同一IP地址的请求分发到同一台服务器上。即Session绑定在某台特定服务器上,保证Session总能在这台服务器上获取。(这种方案又叫做会话粘滞
  • Cookie记录Session:利用浏览器支持的Cookie记录Session。(所以需要保证服务集群间的域名一致来保证session id一致)


注:显然session复制和绑定不符合高可用的需求。因为一旦某台服务器宕机,那么该机器上得Session也就不复存在了,用户请求切换到其他机器后因为没有Session而无法完成业务处理。

相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
8月前
|
负载均衡 应用服务中间件 数据库
高可用系列文章之四 - 总结
高可用系列文章之四 - 总结
|
5月前
|
SQL 关系型数据库 MySQL
(二十五)MySQL主从实践篇:超详细版读写分离、双主热备架构搭建教学
在上篇《主从原理篇》中,基本上把主从复制原理、主从架构模式、数据同步方式、复制技术优化.....等各类细枝末节讲清楚了,本章则准备真正对聊到的几种主从模式落地实践,但实践的内容通常比较枯燥乏味,因为就是调整各种配置、设置各种参数等步骤。
718 3
|
5月前
|
存储 监控 固态存储
【性能突破】揭秘!如何让您的数据库在高并发风暴中稳如磐石——一场关于WAL写入性能优化的实战之旅,不容错过的技术盛宴!
【8月更文挑战第21天】在高并发环境下,数据库面临极大挑战,特别是采用Write-Ahead Logging (WAL)的日志机制。本文通过一个在线交易系统的案例,分析了WAL写入性能瓶颈,并提出优化方案:理解WAL流程;分析磁盘I/O瓶颈、缓冲区设置与同步策略;通过增大WAL缓冲区、使用SSD及调整同步策略来优化;最后通过测试验证改进效果,总结出一套综合优化方法。
88 0
|
7月前
|
缓存 NoSQL 测试技术
服务高可用秘籍:高性能 - 葵花宝典
随着企业产品业务不断扩大、用户量增加、功能需求复杂化,原有的系统架构逐渐无法满足高效运行、快速响应市场变化以及支持大规模并发访问等需求,在这种背景下,服务从单体应用架构,发展到资源隔离拆分多服务架构、负债均衡多集群架构,再到更细粒度的微服务容器编排架构,业务的增长不断促进架构的演进。本人有幸在刚进入互联网公司没几年就接触到相对大型的互联网产品的开发,从几十万、几百万到现在上千万 DAU,业务的增长不仅仅是对现有架构的挑战,更是推动技术创新和架构升级的动力。企业需要不断审视和调整其技术架构,以适应业务发展,保持竞争力,服务的部署架构以及开发者的技术认知,也跟随着高 QPS 场景不断的迭代升级。
57 0
|
缓存 运维 Kubernetes
【k8s 系列】k8s 学习二十七 - 7,k8s 自身原理之高可用
说到高可用,咱们在使用主机环境的时候(非 k8s),咱做高可用有使用过这样的方式: • 服务器做主备部署,当主节点和备节点同时存活的时候,只有主节点对外提供服务,备节点就等着主节点挂了之后,立刻补位
182 0
|
存储 设计模式 缓存
【老猿说架构】高并发高可用易扩展架构设计的套路
【老猿说架构】高并发高可用易扩展架构设计的套路
287 0
【老猿说架构】高并发高可用易扩展架构设计的套路
|
存储 运维 监控
科普分布式架构
分布式架构主要是做了两件事,一是提高整体架构的吞吐量,二是提高系统的稳定性,让系统的可用性更高。
175 0
|
8月前
|
SQL 缓存 Java
如何做好大促时的系统高可用
如何在大促中做好系统高可用是大家都非常关心的一个问题,特别是在双十一之前,在大促过程中做好系统高可用保障是有双十一大促的客户都会了解的一个内容。大流量、系统内部/下游不稳定、单机故障、热点请求等等一系列的问题都会导致一些非预期的情况。那么今天就围绕大促来谈谈,如何在非预期的情况下,始终保持我们的系统...
如何做好大促时的系统高可用
|
canal 存储 负载均衡
一举拿下高可用与分布式协调系统设计
一举拿下高可用与分布式协调系统设计
|
负载均衡 容灾 NoSQL
搞懂高可用:异地多活,看这篇文章就够了!
后台服务可以划分为两类,有状态和无状态。高可用对于无状态的应用来说是比较简单的,无状态的应用,只需要通过F5或者任何代理的方式就可以很好的解决。后文描述的主要是针对有状态的服务进行分析。服
搞懂高可用:异地多活,看这篇文章就够了!