本节书摘来华章计算机《vSphere性能设计:性能密集场景下CPU、内存、存储及网络的最佳设计实践》一书中的第1章 ,第1.5.4节,[美] 克里斯托弗·库塞克(Christopher Kusek) 著 吕南德特·施皮斯(Rynardt Spies)姚海鹏 刘韵洁 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.5.4 高可用性
当CIO(首席信息官)与管理层开始了解虚拟化时,他们最常见的恐惧之一是“把所有的鸡蛋放在一个篮子里”。“如果我们所有的服务器都放在一个服务器上,若该服务器出现故障将怎么办?”这是一个很聪明的问题,而VMware提出的高可用性(HA)正是为了解决这个问题,这是VMware Infrastructure 3的一项特色。一个虚拟基础架构由vCenter管理,它知道所有在它控制下的主机以及在这些主机上运行的虚拟机。vCenter负责安装和配置HA, ESXi主机负责监测运行、启动故障切换和虚拟机启动。理解这一点是非常重要的,因为vCenter可以是已经中断的虚拟机之一,而HA依然在起作用,并提供一个仍然可用的主HA主机,这又称为故障转移协调。
VMware推崇一个简称为N+1的策略(作为最低限度但不是绝对),是由架构要求决定的。简单来说就是你的集群应该包括足够的主机(N),以便其中一个出现故障时,集群有足够的能力在其他主机上重启虚拟机。HA有一个需求是主机之间的共享存储。当一个主机发生故障时,启动HA,这会出现一小段停机时间,大致与你期盼的重新启动时间相同。如果该集群中有提醒警告软件,会发送一个故障说明的页面或者邮件信息,但在其他时候,这种情况发生得太快以至于没有触发警报。虚拟化的目标是保持生产服务器的高正常运行时间;主机可以出现故障,只要服务器群保持运行,那么你就可以在工作时间应对这一挑战。