一、keepalived概述
1.1 keepalived 服务重要功能
1.1.1 管理LVS负载均衡器软件
keepalived可以通过读取自身的配置文件,实现通过更底层的接口直接管理LVS配置以及服务的启动、停止功能,使得LVS应用更加简便
1.1.2 支持故障自动切换(failover)
Keepalived可以实现任意两台主机之间,例如Master和Backup主机之间的故障转移和自动切换,这个主机可以是普通的不能停机的业务服务器,也可以是LVS负载均衡,Nginx反向代理这样的服务器。
Keepalived高可用功能实现的原理:
两台主机同时安装好keepalived并且启动服务,当启动的时候master主机获得所有资源并且对用户提供服务(请求),角色backup的主机做为master热备;当master主机出现故障时,backup主机讲自动接管master主机所有工作,包括接管VIP资源及相应资源服务。当master主机故障修复后,又会自动接管回它的原来处理的工作,backup主机则同时释放masater主机失效时接管的工作,此时此刻两台主机将恢复到最初启动时各自的原始角色及工作状态
抢占模式:master 从故障恢复后,回将VIP从backup节点中抢占过来
非抢占模式:master从故障恢复后不抢占backup,backup升级为master
1.1.3 实现LVS集中节点的健康检查(health checking)
通过配置keepalived.conf文件中LVS的节点IP和相关参数来实现对LVS直接管理。如果几个节点服务器同时发生故障无法提供服务,keepalived服务会自动将那个失效节点服务器从LVS正常转发列中清除出去,并将请求调度到别的正常节点服务器上,从而保证最终用户的访问不受影响;当故障的节点服务器修复以后,keepalived服务又会自动把他们加入到正常转发列中,对外面客户提供服务
1.1.4 实现 LVS 负载调度器、节点服务器的高可用性(HA)
一般企业集群需要满足的三个特点:负载均衡、健康检查、故障切换,使用 LVS + Keepalived 完全可以满足需求
1.2 keepalived通过VRRP协议实现高可用故障切换转移
keepalived 高可用服务对集群之间的故障切换转移,是通过 VRRP(虚拟路由器冗余协议)来实现的。
在 keepalived 服务正常工作时,主(Master)节点会不断地向备(Backup)节点发送(多播的方式)心跳消息,用以告诉备节点自己还活看,当主节点发生故障时,就无法发送心跳消息,备节点也就因此无法继续检测到来自主节点的心跳了,于是调用自身的接管程序,接管主节点的 IP 资源及服务。而当主节点恢复时,备节点又会释放主节点故障时自身接管的 IP 资源及服务,恢复到原来的备用角色。
1.3 keepalived体系主要模块及作用
keepalived体系架构中主要有三个模块,分别是core、check和vrrp。
- core模块:为keepalived的核心,负责主进程的启动、维护及全局配置文件的加载和解析。
- vrrp模块:是来实现VRRP协议的。
- check模块:负责健康检查,常见的方式有端口检查及URL检查。
二、LVS—DR + keepalived 配置
主DR服务器:ens33(192.168.147.100) VIP:192.168.147.200 网卡 ens33:0 备DR服务器:ens33(192.168.147.104) VIP:192.168.147.200 网卡 ens33:0 Web 服务器1:ens33 192.168.147.101 lo:0(VIP)192.168.147.200 Web 服务器2:ens33 192.168.147.102 lo:0(VIP)192.168.147.200 vip:192.168.147.200 客户端:IP:192.168.147.20 网关:192.168.147.2
2.1 配置负载调度器(主、备相同)(192.168.147.100、192.168.147.104)
systemctl stop firewalld.service setenforce 0 yum -y install ipvsadm keepalived modprobe ip_vs cat /proc/net/ip_vs
2.1.1 配置keepalived(主、备DR上都要设置)
cd /etc/keepalived/ cp keepalived.conf keepalived.conf.bak vim keepalived.conf ...... global_defs { #定义全局参数 --10行--修改,邮件服务指向本地 smtp_server 127.0.0.1 --12行--修改,指定服务器(路由器)的名称,主备服务器名称须不同,主为LVS_01,备为LVS_02 router_id LVS_01 --14行--注释掉,取消严格遵守VRRP协议功能,否则VIP无法被连接 #vrrp_strict } vrrp_instance VI_1 { #定义VRRP热备实例参数 --20行--修改,指定热备状态,主为MASTER,备为BACKUP state MASTER --21行--修改,指定承载vip地址的物理接口 interface ens33 --22行--修改,指定虚拟路由器的ID号,每个热备组保持一致 virtual_router_id 10 #nopreempt #如果设置非抢占模式,两个节点state必须为bakcup,并加上配置 nopreempt --23行--修改,指定优先级,数值越大优先级越高,这里设置主为100,备为90 priority 100 advert_int 1 #通告间隔秒数(心跳频率) authentication { #定义认证信息,每个热备组保持一致 auth_type PASS #认证类型 --27行--修改,指定验证密码,主备服务器保持一致 auth_pass abc123 } virtual_ipaddress { #指定群集vip地址 192.168.147.200 } } --36行--修改,指定虚拟服务器地址(VIP)、端口,定义虚拟服务器和Web服务器池参数 virtual_server 192.168.147.200 80 { delay_loop 6 #健康检查的间隔时间(秒) lb_algo rr #指定调度算法,轮询(rr) --39行--修改,指定群集工作模式,直接路由(DR) lb_kind DR persistence_timeout 50 #连接保持时间(秒) protocol TCP #应用服务采用的是 TCP协议 --43行--修改,指定第一个Web节点的地址、端口 real_server 192.168.147.101 80 { weight 1 #节点的权重 --45行--删除,添加以下健康检查方式 TCP_CHECK { connect_port 80 #添加检查的目标端口 connect_timeout 3 #添加连接超时(秒) nb_get_retry 3 #添加重试次数 delay_before_retry 3 #添加重试间隔 } } real_server 192.168.147.102 80 { #添加第二个 Web节点的地址、端口 weight 1 TCP_CHECK { connect_port 80 connect_timeout 3 nb_get_retry 3 delay_before_retry 3 } } ##删除后面多余的配置## }
2.1.2 配置vip(主、备DR上都要设置)
vim /etc/sysconfig/network-scripts/ifcfg-ens33:0 DEVICE=ens33:0 ONBOOT=yes IPADDR=192.168.10.188 NETMASK=255.255.255.255 重启网卡 systemctl restart network ifup ens33:0 systemctl start keepalived ip addr #查看虚拟网卡vip
2.1.3 启动 ipvsadm 服务
--192.168.147.104--- ipvsadm-save > /etc/sysconfig/ipvsadm systemctl start ipvsadm ipvsadm -C ##清空规则 ipvsadm -A -t 192.168.147.200:80 -s rr ipvsadm -a -t 192.168.147.200:80 -r 192.168.147.101:80 -g ipvsadm -a -t 192.168.147.200:80 -r 192.168.147.102:80 -g ipvsadm -ln #如没有VIP 的分发策略,则重启 keepalived 服务,systemctl restart keepalived --192.168.147.100--- ipvsadm-save > /etc/sysconfig/ipvsadm systemctl start ipvsadm ipvsadm -ln
2.1.4 调整 proc 响应参数,关闭Linux 内核的重定向参数响应
vim /etc/sysctl.conf net.ipv4.conf.all.send_redirects = 0 net.ipv4.conf.default.send_redirects = 0 net.ipv4.conf.ens33.send_redirects = 0 sysctl -p
2.2 配置节点服务器
systemctl stop firewalld setenforce 0 yum -y install httpd systemctl start httpd --192.168.147.101--- echo 'this is zhangsan web!' > /var/www/html/index.html --192.168.147.102--- echo 'this is lisi web!' > /var/www/html/index.html vim /etc/sysconfig/network-scripts/ifcfg-lo:0 DEVICE=lo:0 ONBOOT=yes IPADDR=192.168.147.200 NETMASK=255.255.255.255 service network restart 或 systemctl restart network ifup lo:0 ifconfig lo:0 route add -host 192.168.147.200 dev lo:0 vim /etc/sysctl.conf net.ipv4.conf.lo.arp_ignore = 1 net.ipv4.conf.lo.arp_announce = 2 net.ipv4.conf.all.arp_ignore = 1 net.ipv4.conf.all.arp_announce = 2 sysctl -p
2.3 测试验证
在客户端访问 http://192.168.147.200/ 再在主服务器关闭 keepalived 服务后再测试, systemctl stop keepalived
关闭 LVS_01 keepalived 之前
关闭 LVS_01 keepalived 之后
指在一个高可用(HA)系统中,当联系着的两个节点断开联系时,本来为一个整体的系统,分裂为两个独立的点,这时候两个节点开始争抢共享资源,导致系统混乱,数据损坏
3.2 产生原因
在某一次故障切换后,原来的master没有真正宕机,VIP还在master上,这时backup已经抢占了master的地位,并也在本地配置了VIP
3.3 解决预防方案
- 网络层面:加一条链路(成本高)
- 本地通过脚本解决,写一个while循环,每轮ping网关,累计连续失败的次数,当连续失败次数达到一定次数则将keepalived服务关闭
- 使用第三方监控软件解决