在项目运营维护中遇到以下问题
计划停机时间:物理服务器进行硬件维护、硬件更新(vMotion虚拟化主机迁移)
非计划停机时间:物理服务器故障,快速恢复、连续可用性,减少非计划停机时间(HA和FT)
集群(HA)是将多个主机(服务器)通过网络连接的方式组成一个整体,各个主机间是相互协同运行(集群就是进行统一管理)
当主机出现问题,网络中断,集群虚拟机可以从当前异常主机上切换到其他主机环境上运行
目的:有效防止异常情况下,业务长时间中断
集群原理
集群的原理:基于共享存储,实现HA高可用性,通过集群通信口,更新各个主机状态
共享存储功能:实现动态资源分配、高可用性,冗余RAID、备份、在线迁移(FC通道存储、ISCSI存储)
自从有了网络存储以后,主机(服务器)只是提供CPU、内存
集群网络层面接口
1、集群管理通信网口:主机间信息同步、集群管理,虚拟机操作
2、存储通信网络:访问共享存储
3、数据通信网络:vxlan通信网络、虚拟网络内部跨主机通信
4、物理出口:虚拟网络跟物理网络之间的桥梁
vSphere HA 用于意外故障切换,当监控到群集中有主机意外故障时,虚拟机会自动切换到其他主机上承载服务
1、ESXI主机故障(将虚拟机切换到其它的ESXI主机上)
2、客户OS故障(群集侦听虚拟机心跳信号,若虚拟机长时间没发送信号,群集将重启虚拟机)
3、应用程序故障(安装VMware Tools,需要第三方检测代理,中断恢复)
缺点:存在down机时间
VMware Tools心跳信号网络,使用VMkernel端口
1、主控和从属主机之间发送心跳
2、用于确定主控和从属主机是否出现故障
3、通过心跳信号网络发送
Master的作用
1、Master监视slave主机,当slave主机出现故障时重启虚拟机
2、Master监视所有被保护虚拟机的电源状态,如果被保护的虚拟机出现故障,它将重启这个虚拟机
3、Master管理在Cluster内部的主机清单,并且对添加和删除Cluster内部的主机进行管理
4、Master管理管理被保护虚拟机的清单,在每一次用户发起开关机操作时,更新这个清单,vCenter会要求Master保护或者不保护某些虚拟机
5、Master缓存Cluster配置,Master通知和提醒slave主机,Cluster配置的修改
定义集群名称
根据实际情况
设置HA虚拟机行为选项,虚拟机按优先级重启顺序,主机失去管理网络连接采取的动作
通过VMware tools检测,如果未收到VMware tools心跳信号,则重置虚拟机,设置检测故障频率
EVC增强型vMotion兼容性,主要针对CPU,模拟CPU一致性进行在线迁移
如果集群中有一个ESXI主机内存在开机状态的虚拟机,ESXI是不能启用EVC技术
解决单链路报警问题
FT对ESXI主机要求
1、相同的FT版本
2、必须激活HA
3、必须启用EVC
4、相同共享存储、网络
5、需要一个传输FT日志的网络连接
6、兼容FT的CPU
7、支持FT的授权
8、在BIOS上启用硬件虚拟化HV
FT对虚拟机要求
1、只支持一个vCPU
2、虚拟磁盘必须要后置备预先置零
3、不可以有快照
4、虚拟机不能是克隆的
5、关闭电源管理
FT技术是为了解决物理主机层面出现故障,如果是虚拟机上应用出错或者应用底层OS出现故障的时候,这种情形FT是无法解决的