什么是集群

集群是一组协同工作的服务集合，用来提供比单一服务更稳定、更高效、更具扩展性的服务平台。

在集群的内部，有两个或两个以上的服务实体在协调、配合完成一系列复杂的工作。

集群一般由两个或两个以上的服务器组建而成。每个服务器称为一个集群节点，集群节点之间可以相互通信。

集群应该具有节点间服务状态监控功能，同时还必须具有服务实体的扩展功能，可以灵活地增加和剔除某个服务实体。

集群应该具有故障自动切换功能：在集群中，同样的服务可以由多个服务实体提供。因而，当一个节点出现故障时，集群的另一个节点可以自动接管故障节点的资源，从而保证服务持久、不间断运行。

一个集群系统必须拥有共享的数据存储：因为集群对外提供的服务是一致的，任何一个集群节点运行一个应用时，应用的数据都集中存储在节点共享空间内。而每个节点的操作系统上仅运行应用的服务，同时存储应用程序文件。

集群的特点与功能

1. 高可用性与可扩展性

在服务出现故障时，集群系统可以自动将服务从故障节点切换到另一个备用节点，从而提供不间断性服务，保证了业务的持续运行。

随着业务量的加大，现有的集群服务实体不能满足需求时，可以向此集群中动态地加入一个或多个服务节点，从而满足应用的需要，增强集群的整体性能

2. 负载均衡与错误恢复

通过集群自身定义的负载分担策略，将客户端的访问分配到下面的各个服务节点

常见的6种算法：

静态算法：

Round robin （循环）:客户端请求按顺序发送到不同的服务实例。通常要求服务是无状态的。

Sticky round-robin （粘性循环）:粘性循环算法是循环算法的改进。如果某个客户端的第一个请求转到服务A，则后续请求也将转到服务A。

Weighted round-robin （加权循环）:管理员可以为每个服务指定权重。权重较高的处理比其他处理更多的请求。

Hash （哈希）:该算法对传入请求的IP或URL应用哈希函数，算的Hash值决定了请求被哪个服务处理。

动态算法

Least connections （最小连接数）:一个新的请求被发送到并发连接最少的服务实例。

Least response time （最小响应时间）:一个新的请求被发送到响应时间最快的服务实例。

当一个任务在一个节点上还没有完成时，由于某种原因，执行失败，此时，另一个服务节点应该能接着完成此任务，这就是集群提供的错误恢复功能。通过错误的重定向，保证了每个执行任务都能有效地完成。

3. 心跳监测与漂移IP地址

心跳监控的效率直接影响故障切换时间的长短，集群系统正是通过心跳技术保持节点间内部通信的有效性。

在集群系统中，除了每个服务节点自身的真实IP地址外，还存在一个漂移IP地址. 这个IP地址并不固定。举个例子，在两个节点的双机热备中，正常状态下，这个漂移IP地址位于主节点上，当主节点出现故障后，漂移IP地址自动切换到备用节点。因此，为了保证服务的不间断性，在集群系统中，对外提供的服务IP地址一定要是这个漂移IP地址。

集群的分类

1. 高可用集群

高可用的概念

高可用集群（High Availability Cluster，HA集群），其中高可用的含义是最大限度地可以使用。此类集群实现的功能是保障用户的应用程序持久、不间断地提供服务。

当应用程序出现故障或者系统硬件、网络出现故障时，应用可以自动、快速从一个节点切换到另一个节点，从而保证应用持续、不间断地对外提供服务，这就是高可用集群实现的功能，

常见的HA集群

常说的双机热备、双机互备、多机互备等都属于高可用集群的范畴，这类集群一般都由两个或两个以上节点组成。

双机冷备

冷备是指当目标设备发生故障或停机后，冷备设备才开始由停机等待状态进入启动运转状态，并承担起故障设备的工作任务。

比如，有两台业务服务器：主服务器和备用服务器。在主服务器运行时候，通过定时任务自动将数据定时同步到备用服务器上。

当主服务器发生故障时，人工方式手动切换到备用服务器上（临时把备份数据库机器的IP改过来用）保障系统的连续运行和服务。主服务器恢复功能后，只需要将备用服务器上的数据拷贝回来，重新启动主服务器即可。

双机热备

典型的双机热备结构如下

双机热备是最简单的应用模式，即经常说的active/standby方式。它使用两台服务器，一台作为主服务器（action server），负责运行应用程序并对外提供服务，另一台作为备用服务器（standby server），安装和主服务器一样的应用程序，但是并不启动服务，处于待机状态。

主机和备机之间通过心跳技术相互监控，监控的资源可以是网络、操作系统，也可以是服务。可以根据自己的需要，选择需要监控的资源。

当备机监控到主机的某个资源出现故障时，根据预先设定好的策略，首先将IP切换过来，然后将应用程序服务也接管过来，接着就由备机对外提供服务。

由于切换过程时间非常短，因此用户根本感觉不到程序出了问题，而且还进行了切换，从而保障了应用程序持久、不间断地服务。

双机互备

双机互备是在双机热备的基础上，两个相互独立的应用在两个机器上同时运行，互为主备，即两台服务器既是主机也是备机，当任何一个应用出现故障时，另一台服务器都能在短时间内将故障机器的应用接管过来，从而保障了服务的持续、无间断运行。

优点：双机互备的好处是节省了设备资源，两个应用的双机热备至少需要四台服务器，而双机互备仅需两台服务器即可完成高可用集群功能。

缺点：双机互备也有自身的缺点：在某个节点故障切换后，另一个节点上就同时运行了两个应用的服务，有可能出现负载过大的情况。

多机互备

多机互备是双机热备的技术升级，通过多台机器组成一个集群，可以在多台机器之间设置灵活的接管策略。

举个例子：某个集群环境由8台服务器组成，3台运行A应用，3台运行B应用，因而，可以将剩余的一台作为3台A服务器的备机，另一台作为3台B服务器的备机，通过这样的部署，合理充分地利用了服务器资源，同时也保证了系统的高可用性。

高可用集群不能保证应用程序数据的安全性，它仅仅解决的是对外提供持久不间断的服务，把由于软件、硬件、网络、人为因素造成的故障而对应用造成的影响降低到最底程度。

高可用集群软件

高可用集群一般是通过高可用软件来实现的。在Linux下常用的高可用软件有开源HeartBeat HA、Red Hat提供的RHCS、Keepalived、商业软件ROSE、等

2. 负载均衡集群

负载均衡集群（Load Balance Cluster，LB集群）也是由两台或者两台以上的服务器组成，分为前端负载调度和后端节点服务两个部分。负载调度部分负责把客户端的请求按照不同的策略分配给后端服务节点，而后端节点是真正提供应用程序服务的部分。

与HA集群不同的是，在负载均衡集群中，所有的后端节点都处于活动状态，它们都对外提供服务，分摊系统的工作负载。

优点：负载均衡集群可以把一个高负荷的应用分散到多个节点来共同完成，适用于业务繁忙、大负荷访问的应用系统。

不足的地方：当一个节点出现故障时，前端调度系统并不知道此节点已经不能提供服务，仍然会把客户端的请求调度到故障节点上来，这样访问就会失败。为了解决这个问题，负载调度系统一般都引入了节点监控。

节点监控系统位于前端负载调度机上，负责监控下面的服务节点。当某个节点出现故障后，节点监控系统会自动将故障节点从集群中剔除。当此节点恢复正常后，节点监控系统又会自动将其加入集群中，而这一切对用户来说是完全透明的。

【负载均衡集群的基本结构】

负载均衡集群可以通过软件方式实现，也可以由硬件设备来完成。Linux下典型的负载均衡软件有开源LVS集群、Oracle的RAC集群等，硬件负载均衡器有F5 Networks等

3. 分布式计算集群

分布式计算集群致力于提供单个计算机所不能提供的强大的计算分析能力，包括数值计算和数据处理，并且倾向于追求综合性能。可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

流行的开源分布式计算平台Hadoop、Spark就是这样的一个分布式计算集群平台。通过这个平台，用户可以轻松地开发和处理海量数据。

在这个平台上，分布式任务是并行运行的，因此处理速度非常快。同时，数据在储存上维护了多个副本，确保能够针对失败的节点重新进行分布处理。

例如，Hadoop的分布式架构，可将大数据直接存储到HDFS这个分布式文件系统上，而Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务发送到多个节点上，之后再以单个数据集的形式加载到数据仓库里。

HA集群中的相关术语

1．节点

运行Heartbeat进程的一个独立主机，称为节点（node）。

节点是HA集群的核心组成部分，每个节点上运行着操作系统和Heartbeat软件服务。在Heartbeat集群中，节点有主次之分，分别称为主节点和备用/备份节点，每个节点拥有唯一的主机名，并且拥有属于自己的一组资源，例如，磁盘、文件系统、网络地址和应用服务等。

主节点上一般运行着一个或多个应用服务。而备用节点一般处于监控状态。

2．资源

资源（resource）是一个节点可以控制的实体，并且当节点发生故障时，这些资源能够被其他节点接管。在Heartbeat集群中，可以当做资源的实体有以下几种。

磁盘分区、文件系统
IP地址
应用程序服务
NFS

3．事件

事件（event）也就是集群中可能发生的事情。例如，节点系统故障、网络连通故障、网卡故障、应用程序故障等。这些事件都会导致节点的资源发生转移，HA集群的测试也是基于这些事件来进行的。

4．动作

动作（action）是事件发生时HA的响应方式，动作是由shell脚步控制的。例如，当某个节点发生故障后，备份节点将通过事先设定好的执行脚本进行服务的关闭或启动，进而接管故障节点的资源。