高可用 - 01 闲聊高性能集群

本文涉及的产品
传统型负载均衡 CLB,每月750个小时 15LCU
网络型负载均衡 NLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
简介: 高可用 - 01 闲聊高性能集群

0bc7b7bcd1fc4752b429566093397057.png

什么是集群


集群是一组协同工作的服务集合,用来提供比单一服务更稳定、更高效、更具扩展性的服务平台。

在集群的内部,有两个或两个以上的服务实体在协调、配合完成一系列复杂的工作。


集群一般由两个或两个以上的服务器组建而成。每个服务器称为一个集群节点,集群节点之间可以相互通信。


集群应该具有节点间服务状态监控功能,同时还必须具有服务实体的扩展功能,可以灵活地增加和剔除某个服务实体。


集群应该具有故障自动切换功能: 在集群中,同样的服务可以由多个服务实体提供。因而,当一个节点出现故障时,集群的另一个节点可以自动接管故障节点的资源,从而保证服务持久、不间断运行。


一个集群系统必须拥有共享的数据存储 : 因为集群对外提供的服务是一致的,任何一个集群节点运行一个应用时,应用的数据都集中存储在节点共享空间内。而每个节点的操作系统上仅运行应用的服务,同时存储应用程序文件。


集群的特点与功能


1. 高可用性与可扩展性


在服务出现故障时,集群系统可以自动将服务从故障节点切换到另一个备用节点,从而提供不间断性服务,保证了业务的持续运行。

随着业务量的加大,现有的集群服务实体不能满足需求时,可以向此集群中动态地加入一个或多个服务节点,从而满足应用的需要,增强集群的整体性能


2. 负载均衡与错误恢复


通过集群自身定义的负载分担策略,将客户端的访问分配到下面的各个服务节点


5f8f4306580f462f87f4da1cc0b9e22e.jpg


常见的6种算法:


静态算法:


Round robin (循环):客户端请求按顺序发送到不同的服务实例。 通常要求服务是无状态的。

Sticky round-robin (粘性循环):粘性循环算法是循环算法的改进。 如果某个客户端的第一个请求转到服务A,则后续请求也将转到服务A。

Weighted round-robin (加权循环):管理员可以为每个服务指定权重。 权重较高的处理比其他处理更多的请求。

Hash (哈希):该算法对传入请求的IP或URL应用哈希函数,算的Hash值决定了请求被哪个服务处理。

动态算法


Least connections (最小连接数):一个新的请求被发送到并发连接最少的服务实例。

Least response time (最小响应时间):一个新的请求被发送到响应时间最快的服务实例。


当一个任务在一个节点上还没有完成时,由于某种原因,执行失败,此时,另一个服务节点应该能接着完成此任务,这就是集群提供的错误恢复功能。通过错误的重定向,保证了每个执行任务都能有效地完成。


3. 心跳监测与漂移IP地址


心跳监控的效率直接影响故障切换时间的长短,集群系统正是通过心跳技术保持节点间内部通信的有效性。

在集群系统中,除了每个服务节点自身的真实IP地址外,还存在一个漂移IP地址. 这个IP地址并不固定。举个例子,在两个节点的双机热备中,正常状态下,这个漂移IP地址位于主节点上,当主节点出现故障后,漂移IP地址自动切换到备用节点。因此,为了保证服务的不间断性,在集群系统中,对外提供的服务IP地址一定要是这个漂移IP地址。


集群的分类


1. 高可用集群


高可用的概念


高可用集群(High Availability Cluster,HA集群),其中高可用的含义是最大限度地可以使用。此类集群实现的功能是保障用户的应用程序持久、不间断地提供服务。

当应用程序出现故障或者系统硬件、网络出现故障时,应用可以自动、快速从一个节点切换到另一个节点,从而保证应用持续、不间断地对外提供服务,这就是高可用集群实现的功能,


常见的HA集群

常说的双机热备、双机互备、多机互备等都属于高可用集群的范畴,这类集群一般都由两个或两个以上节点组成。


双机冷备

冷备是指当目标设备发生故障或停机后,冷备设备才开始由停机等待状态进入启动运转状态,并承担起故障设备的工作任务。


比如,有两台业务服务器:主服务器和备用服务器。 在主服务器运行时候,通过定时任务自动将数据定时同步到备用服务器上。


当主服务器发生故障时,人工方式手动切换到备用服务器上(临时把备份数据库机器的IP改过来用)保障系统的连续运行和服务。主服务器恢复功能后,只需要将备用服务器上的数据拷贝回来,重新启动主服务器即可。


双机热备


典型的双机热备结构如下


4616ef2fef0c4e02b1a20eacc62c7b6f.png


双机热备是最简单的应用模式,即经常说的active/standby方式。它使用两台服务器,一台作为主服务器(action server),负责运行应用程序并对外提供服务,另一台作为备用服务器(standby server),安装和主服务器一样的应用程序,但是并不启动服务,处于待机状态。


主机和备机之间通过心跳技术相互监控,监控的资源可以是网络、操作系统,也可以是服务。 可以根据自己的需要,选择需要监控的资源。


当备机监控到主机的某个资源出现故障时,根据预先设定好的策略,首先将IP切换过来,然后将应用程序服务也接管过来,接着就由备机对外提供服务。


由于切换过程时间非常短,因此用户根本感觉不到程序出了问题,而且还进行了切换,从而保障了应用程序持久、不间断地服务。


双机互备


双机互备是在双机热备的基础上,两个相互独立的应用在两个机器上同时运行,互为主备,即两台服务器既是主机也是备机,当任何一个应用出现故障时,另一台服务器都能在短时间内将故障机器的应用接管过来,从而保障了服务的持续、无间断运行。


优点:双机互备的好处是节省了设备资源,两个应用的双机热备至少需要四台服务器,而双机互备仅需两台服务器即可完成高可用集群功能。


缺点:双机互备也有自身的缺点:在某个节点故障切换后,另一个节点上就同时运行了两个应用的服务,有可能出现负载过大的情况。


多机互备


多机互备是双机热备的技术升级,通过多台机器组成一个集群,可以在多台机器之间设置灵活的接管策略。


举个例子: 某个集群环境由8台服务器组成,3台运行A应用,3台运行B应用,因而,可以将剩余的一台作为3台A服务器的备机,另一台作为3台B服务器的备机,通过这样的部署,合理充分地利用了服务器资源,同时也保证了系统的高可用性。


高可用集群不能保证应用程序数据的安全性,它仅仅解决的是对外提供持久不间断的服务,把由于软件、硬件、网络、人为因素造成的故障而对应用造成的影响降低到最底程度。


高可用集群软件


高可用集群一般是通过高可用软件来实现的。在Linux下常用的高可用软件有开源HeartBeat HA、Red Hat提供的RHCSKeepalived商业软件ROSE、等


2. 负载均衡集群


负载均衡集群(Load Balance Cluster,LB集群)也是由两台或者两台以上的服务器组成,分为前端负载调度和后端节点服务两个部分。负载调度部分负责把客户端的请求按照不同的策略分配给后端服务节点,而后端节点是真正提供应用程序服务的部分。


与HA集群不同的是,在负载均衡集群中,所有的后端节点都处于活动状态,它们都对外提供服务,分摊系统的工作负载。


优点: 负载均衡集群可以把一个高负荷的应用分散到多个节点来共同完成,适用于业务繁忙、大负荷访问的应用系统。


不足的地方:当一个节点出现故障时,前端调度系统并不知道此节点已经不能提供服务,仍然会把客户端的请求调度到故障节点上来,这样访问就会失败。为了解决这个问题,负载调度系统一般都引入了节点监控。


节点监控系统位于前端负载调度机上,负责监控下面的服务节点。当某个节点出现故障后,节点监控系统会自动将故障节点从集群中剔除。当此节点恢复正常后,节点监控系统又会自动将其加入集群中,而这一切对用户来说是完全透明的。


【负载均衡集群的基本结构】

a01d8676f66042c38b3f093f03dbad2b.png


负载均衡集群可以通过软件方式实现,也可以由硬件设备来完成。Linux下典型的负载均衡软件有开源LVS集群、Oracle的RAC集群等,硬件负载均衡器有F5 Networks等


3. 分布式计算集群


分布式计算集群致力于提供单个计算机所不能提供的强大的计算分析能力,包括数值计算和数据处理,并且倾向于追求综合性能。 可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。


流行的开源分布式计算平台Hadoop、Spark就是这样的一个分布式计算集群平台。通过这个平台,用户可以轻松地开发和处理海量数据。


在这个平台上,分布式任务是并行运行的,因此处理速度非常快。同时,数据在储存上维护了多个副本,确保能够针对失败的节点重新进行分布处理。

例如,Hadoop的分布式架构,可将大数据直接存储到HDFS这个分布式文件系统上,而Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里。


HA集群中的相关术语


1.节点


运行Heartbeat进程的一个独立主机,称为节点(node)。


节点是HA集群的核心组成部分,每个节点上运行着操作系统和Heartbeat软件服务。在Heartbeat集群中,节点有主次之分,分别称为主节点和备用/备份节点,每个节点拥有唯一的主机名,并且拥有属于自己的一组资源,例如,磁盘、文件系统、网络地址和应用服务等。


主节点上一般运行着一个或多个应用服务。而备用节点一般处于监控状态。


2.资源


资源(resource)是一个节点可以控制的实体,并且当节点发生故障时,这些资源能够被其他节点接管。在Heartbeat集群中,可以当做资源的实体有以下几种。

  • 磁盘分区、文件系统
  • IP地址
  • 应用程序服务
  • NFS


3.事件


事件(event)也就是集群中可能发生的事情。例如,节点系统故障、网络连通故障、网卡故障、应用程序故障等。这些事件都会导致节点的资源发生转移,HA集群的测试也是基于这些事件来进行的。


4.动作


动作(action)是事件发生时HA的响应方式,动作是由shell脚步控制的。例如,当某个节点发生故障后,备份节点将通过事先设定好的执行脚本进行服务的关闭或启动,进而接管故障节点的资源。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
相关文章
|
网络协议 网络安全 网络虚拟化
IPv6地址详解
IPv4地址资源的紧张限制了Internet的进一步发展。NAT、CIDR、VLSM等技术的使用仅仅暂时缓解IPv4地址紧张,但不是根本解决办法。
927 0
|
9月前
|
人工智能 调度 光互联
中兴打造开放智算基座,帮助小厂解决算力难题
中兴打造开放智算基座,帮助小厂解决算力难题
125 6
|
存储 缓存 NoSQL
分布式缓存中间件Redis入门
本文主要就介绍了以下什么是redis、redis的数据结构以及其简单使用。redis其实在日常的生产中使用到的机会还是很大的。所以学会redis也是提高自身硬实力的一种重要方式,这样才能在面试中取得好成绩。
4796 93
分布式缓存中间件Redis入门
|
前端开发 开发者
在前端开发中,webpack 作为模块打包工具,其 DefinePlugin 插件可在编译时动态定义全局变量,支持环境变量定义、配置参数动态化及条件编译等功能。
在前端开发中,webpack 作为模块打包工具,其 DefinePlugin 插件可在编译时动态定义全局变量,支持环境变量定义、配置参数动态化及条件编译等功能。本文阐述 DefinePlugin 的原理、用法及案例,包括安装配置、具体示例(如动态加载资源、配置接口地址)和注意事项,帮助开发者更好地利用此插件优化项目。
443 0
十分钟 教你IDEA 远程debugger SpringBoot项目
你是否还在线上得bug而烦恼,莫慌,让我来解决。
|
Web App开发 缓存 网络协议
nginx 限流模块和fail2ban搭配使用
ngnix的限流模块主要有三个: limit_conn 限制某个ip的tcp连接数目或者限制某个server(网站)整体的连接数目 limit_rate 现在每个请求的数据大小 limit_req 限制某个ip的请求次数 其中效果最明显的是第三个limit_req,但是宝塔面板中的流量限制只有前面两项的配置,所以之前一直流量限制没什么用。
802 0
nginx 限流模块和fail2ban搭配使用
|
存储 安全 前端开发
Foxmail新建文件夹后,邮件连同文件夹都找不到了
Foxmail新建文件夹后,邮件连同文件夹都找不到了
1598 2
Foxmail新建文件夹后,邮件连同文件夹都找不到了
|
物联网 5G 云计算
《边缘云计算技术及标准化白皮书》电子版地址
随着 5G、物联网时代的到来以及云计算应用的逐渐增加,传统的云计算技术已经无法满足终端侧“大连接,低时延,大带宽”的需求。随着边缘计算技术的出现,云计算将必然发展到下一个技术阶段,将云计算的能力拓展至距离终端最近的边缘侧,并通过云边端的统一管控实现云计算服务的下沉,ᨀ供端到端的云服务,由此产生了边缘云计算的概念。为了积极引导边缘云计算技术和应用发展,以及边缘云计算相关标准的制定。
502 0
《边缘云计算技术及标准化白皮书》电子版地址
|
Dart 前端开发 Shell
Markdown实用小技巧: 个个用着都很爽
Markdown实用小技巧: 个个用着都很爽
Markdown实用小技巧: 个个用着都很爽
|
机器学习/深度学习 弹性计算 运维
WSDM 2021 | 构建动态图分析时间序列状态的演化
本文简要介绍我们刚刚被WSDM2021会议录用并即将发表的论文"Time-Series Event Prediction with Evolutionary State Graph",在文中我们提出了一种将时序转化为图进行表示建模的方法。同时我们把所实现的方法落地为阿里云·SLS的智能巡检服务,可以应用于大规模的时间序列异常检测与分析,辅助运维、运营、研发等诸多场景。
6398 0
WSDM 2021 | 构建动态图分析时间序列状态的演化