使用Heartbeat实现MySQL主从高可用
前面我们使用Keepalived实现MySQL主从复制的失败自动切换,参见“使用Keepalived实现MySQL主从高可用”。本篇介绍如何利用Heartbeat来完成相同的功能。从安装、配置、使用、维护等角度上对比,Keepalived都比Heartbeat简单得多,尤其是Heartbeat 2.1.4后拆分成3个子项目,安装、配置、使用都比较复杂。Heartbeat虽然复杂,但功能更强大,配套工具更全,适合做大型集群管理。
一、Heartbeat简介
通过Heartbeat,可以将资源(ip以及程序服务等资源)从一台已经故障的计算机快速转移到另一台正常运转的机器上继续提供服务,一般称之为高可用服务。官方网址:http://www.linux-ha.org/wiki/Heartbeat
通过修改Heartbeat的配置文件,可以指定一台Heartbeat服务器作为主服务器,另一台自动成为热备服务器。在热备服务器上面配置Heartbeat守护程序来监听来自主服务器的心跳信息。如果在规定时间内,无法监听到心跳信息,那么就启动故障转移,取得主服务器上的相关资源的所有权,接替主服务器继续不间断的提供服务,从而达到资源以及服务高可用的目的。一般故障切换时间在5~20s之间。Heartbeat还支持主主模式,及两台服务器互为主备。
另外,和Keepalived的服务一样,Heartbeat高可用是服务器级别的,不是服务级别的。它可以监测以下系统问题:
- 服务器宕机
- Heartbeat软件故障
- 心跳连接线故障
服务故障不会导致切换,但可以通过服务宕机把Heartbeat服务停掉,从而主机实现自动切换。至少需要两台主机才可以实现高可用服务。两台Heartbeat服务之间可以通过以下方式进行通信:
- 穿行电缆,所谓的串口(首选,缺点是距离不能太远)
- 一根以太网电缆两网卡直连(常用方式)
- 以太网电缆,通过交换机等网络设备连接。(交换机可能出现问题等)
Heartbeat通过ip地址接管和arp广播进行故障转移的。在主服务器故障时,备用节点接管资源后,会立即强制更新所有客户端本地的arp表,即清楚客户端本地缓存的故障服务器的vip和mac地址的解析记录,确保客户端和新的主服务器的对话。
真实ip,又被称为管理ip,一般指配置在物理网卡上面的ip。在负载均衡高可用环境中,管理ip是不对外提供访问服务的,仅作为管理服务器使用,如SSH可以通过这个进行服务连接管理。VIP是虚拟ip,实际上就是eth0:X,x为0~255的任意数字,可以在一个网卡上面绑定多个别名。VIP当主服务器故障时,可以自动漂移到备用服务器。
二、安装Heartbeat
环境:
CentOS Linux release 7.2.1511 (Core)
MySQL Master 172.16.1.126
MySQL Slave 172.16.1.127
VIP 172.16.1.100
MySQL主从复制配置从略。
安装Heartbeat源码安装需要依次安装Cluster Glue、Resource Agents和Heartbeat 三个软件,并且三个软件要安装在相同目录下。以下步骤均在172.16.1.126、172.16.1.127两台机器上用root用户操作。
1. 下载软件包
Heartbeat 3.0.6:http://hg.linux-ha.org/heartbeat-STABLE_3_0/archive/958e11be8686.tar.bz2
Cluster Glue 1.0.12:http://hg.linux-ha.org/glue/archive/0a7add1d9996.tar.bz2
Resource Agents 3.9.6:https://github.com/ClusterLabs/resource-agents/archive/v3.9.6.tar.gz
2. 初始配置
(1)禁用防火墙
在/etc/selinux/config文件中设置SELINUX=disabled,并执行:
systemctl disable firewalld
(2)设置主机名
编辑/etc/hosts文件内容如下:
-
127
.0
.0
.1
localhost
localhost
.localdomain
localhost4
localhost4
.localdomain4
-
::1
localhost
localhost
.localdomain
localhost6
localhost6
.localdomain6
-
-
172
.16
.1
.126
hdp3
-
172
.16
.1
.127
hdp4
设置主机名:
在172.16.1.126上:
hostnamectl set-hostname hdp3
在172.16.1.127上:
hostnamectl set-hostname hdp4
(3)安装依赖包
yum -y install glib2-devel libtool-ltdl-devl net-snmp-devel bzip2-devel ncurses-devel openssl-devel libtool libxml2 libxml2-devel gettext bison flex zlib-devel mailx which libxslt docbook-dtds docbook-style-xsl PyXML shadow-utils opensp autoconf automake bzip2 e2fsprogs-devel libxslt-devel libtool-ltdl-devel make asciidoc libuuid-devel
(4)建立用户
-
groupadd haclient
-
useradd -g haclient -M -s /sbin/nologin hacluster
3. 安装Cluster Glue 1.0.12
-
bunzip2
0a7add1d9996.tar.bz2
-
tar -xf
0a7add1d9996.tar
-
cd Reusable-Cluster-Components-glue-
-0a7add1d9996
-
./autogen.sh
-
./configure --prefix=/usr/local/heartbeat &&
make &&
make install
4. 安装Resource Agents 3.9.6
-
tar -zxf resource-agents-3.9.6.tar.gz
-
cd resource-agents-3.9.6
-
./autogen.sh
-
export CFLAGS=
"$CFLAGS -I/usr/local/heartbeat/include -L/usr/local/heartbeat/lib"
-
./configure --prefix=/usr/
local/heartbeat/
-
ln -s /usr/
local/heartbeat/lib/* /lib/
-
ln -s /usr/
local/heartbeat/lib/* /lib64/
-
make && make install
5. 安装Heartbeat 3.0.6
-
tar -vxjf 958e11be8686.tar.bz2
-
cd Heartbeat-3-0-958e11be8686/
-
./bootstrap
-
./configure --prefix=/usr/
local/heartbeat/
-
make
报错:
/usr/local/heartbeat/include/heartbeat/glue_config.h:105:0: error: "HA_HBCONF_DIR" redefined [-Werror]
说明在glue.config.h中,宏HA_HBCONF_DIR被定义了多次,编辑glue_conf.h文件,注释掉最后一行定义宏的代码:
vi /usr/local/heartbeat/include/heartbeat/glue_config.h
将如下的最后一行删除并保存退出。
#define HA_HBCONF_DIR "/usr/local/heartbeat/etc/ha.d/" #
继续编译安装,通过。
make && make install
三、配置
-
cd /usr/
local/heartbeat/share/doc/heartbeat
-
cp -a ha.cf authkeys haresources /usr/
local/heartbeat/etc/ha.d/
-
cd /usr/
local/heartbeat/etc/ha.d
-
chmod 600 etc/ha.d/authkeys
-
ln -svf /usr/
local/heartbeat/lib64/heartbeat/plugins/RAExec/* /usr/
local/heartbeat/lib/heartbeat/plugins/RAExec/
-
ln -svf /usr/
local/heartbeat/lib64/heartbeat/plugins/* /usr/
local/heartbeat/lib/heartbeat/plugins/
需要编辑ha.cf、authkeys和haresources三个配置文件,文件位置为/usr/local/heartbeat/etc/ha.d/。
1. 编辑配置文件ha.cf
172.16.1.126上的ha.cf文件内容如下:
-
[root@hdp3~]
#more /usr/local/heartbeat/etc/ha.d/ha.cf
-
# 保存调试信息文件
-
debugfile /var/
log/ha-debug
-
-
# 日志文件
-
logfile /var/
log/ha-
log
-
-
# 表示使用系统日志
-
logfacility
local
0
-
-
# 心跳的时间间隔,单位秒
-
keepalive
1
-
-
# 超出该时间间隔未收到对方节点的心跳,则判定对方死亡
-
deadtime
30
-
-
# 超出该时间间隔未收到对方节点的心跳,则发出警告记录到日志中
-
warntime
10
-
-
# 在某系统上,系统启动或重启之后需要经过一段时间网络才能正常工作,该选项用于解决这种情况产生的时间间隔,取值至少为deadtime的2倍
-
initdead
120
-
-
# 设置广播通信使用的端口,694为默认使用的端口号
-
udpport
694
-
-
# 传播心跳的广播播网卡信息
-
bcast ens32
-
-
# 设置对方机器心跳检测的IP
-
ucast ens32
172.16.
1.127
-
-
# 在该选项设为on的情况下,一旦主节点恢复运行,则自动获取资源并取代从节点
-
auto_failback off
-
-
# 配置主从的节点信息
-
node hdp3
-
node hdp4
-
-
# 如果ping不通该地址,就认为当前断网,需要转移vip
-
ping
172.16.
1.254
-
-
# 指定与heartbeat一同启动和关闭的进程,该进程被自动监视,遇到故障则重新启动。最常用的进程是ipfail,该进程用于检测和处理网络故障,需要配合ping语句指定的ping node来检测网络连接。如果你的系统是64bit,请注意该文件的路径
-
respawn hacluster /usr/
local/heartbeat/libexec/heartbeat/ipfail
-
-
# 指定用户和组
-
apiauth ipfail gid=haclient uid=hacluster
172.16.1.127上的/usr/local/heartbeat/etc/ha.d/ha.cf文件除了以下两个配置项的信息外,其它和172.16.1.126的相同。
-
# 传播心跳的广播播网卡信息
-
bcast
ens160
-
-
# 设置对方机器心跳检测的网卡和
IP
-
ucast
ens160 172
.16
.1
.126
2. 编辑认证文件authkeys
172.16.1.126与172.16.1.127上的authkeys文件相同,内容如下:
-
[root@hdp3~]
#more /usr/local/heartbeat/etc/ha.d/authkeys
-
auth
2
-
2 sha1 HI!
3. 编辑资源配置文件haresources
所有节点的haresources文件必须相同,本例中只有一行:
-
[root@hdp3~]
#more /usr/local/heartbeat/etc/ha.d/haresources
-
hdp3
172.16.
1.100 mysql
hdp为主节点,172.16.1.100是VIP,mysql是主机启动后自动执行的自定义脚本文件名,所在目录为 haresources同级目录下的resource.d目录下。mysql文件内容只有一行:
-
[root@hdp3~]
#more /usr/local/heartbeat/etc/ha.d/resource.d/mysql
-
/home/mysql/remove_slave.sh
在主从切换后,原来的slave变为master,需要重置其slave状态,并将只读关闭。remove_slave.sh文件内容如下:
-
[root@hdp3~]
#more /home/mysql/remove_slave.sh
-
#!/bin/bash
-
. /home/mysql/.bashrc
-
-
user=root
-
password=123456
-
log=/home/mysql/remove_slave.log
-
-
echo
"`date`" >>
$log
-
-
rm -rf /tmp/kill.sql
-
mysql -u
$user -p
$password -e
"select * into outfile '/tmp/kill.sql' from (select concat('kill ',id,';') from information_schema.processlist where command='sleep' union all select 'set global read_only=OFF;' union all select 'stop slave;' union all select 'reset slave all;') t;"
-
-
mysql -u
$user -p
$password < /tmp/kill.sql >>
$log
-
-
/bin/sed -i
's#read-only#\#read-only#' /home/mysql/mysql-5.6.14/my.cnf
4. 创建MySQL服务检测脚本
-
[root@hdp3~]
#more /home/mysql/mysql_check.sh
-
#!/bin/bash
-
-
. /home/mysql/.bashrc
-
-
count=1
-
-
while
true
-
do
-
-
mysql -uroot -p123456 -S /data/mysql.sock -e
"show status;" > /dev/null 2>&1
-
i=$?
-
ps aux | grep mysqld | grep -v grep > /dev/null 2>&1
-
j=$?
-
if [
$i = 0 ] && [
$j = 0 ]
-
then
-
sleep 3
-
else
-
if [
$i = 1 ] && [
$j = 0 ]
-
then
-
sleep 3
-
else
-
if [
$count -gt 5 ]
-
then
-
break
-
fi
-
let count++
-
continue
-
fi
-
fi
-
-
done
-
-
/etc/init.d/heartbeat stop
mysql_check.sh脚本每三秒检测一次MySQL状态,如果本机MySQL不可用,怎关闭heartbeat服务,是VIP漂移到对方主机。先将该文件放到crontab中自动执行,待启动后再将其从crontab中去掉即可。
172.16.1.126、172.16.1.127上的mysql、remove_slave.sh、mysql_check.sh三个脚本文件相同。
四、测试
1. 启动两个主机的heartbeat服务
-
chkconfig heartbeat
on
-
systemctl start heartbeat
2. 查看VIP
172.16.1.126、172.16.1.127上的IP分别如图1、图2所示。
可以看到,初始VIP绑定在172.16.1.126上。
3. 查看客户端连接
-
C:\WINDOWS\system32>mysql -utest -p123456 -h172.
16.1.
100 -e
"show variables like 'server_id'"
-
mysql: [Warning] Using a password on the command line interface can be insecure.
-
+---------------+-------+
-
| Variable_name | Value
|
-
+---------------+-------+
-
| server_id
| 126 |
-
+---------------+-------+
-
-
C:\WINDOWS\system32>
可以看到,现在客户端通过VIP连接到master上。
4. 查看172.16.1.127上slave的状态
-
mysql> show slave status\G
-
***************************
1. row ***************************
-
Slave_IO_State: Waiting
for master
to send event
-
Master_Host:
172.16
.1
.126
-
Master_User: repl
-
Master_Port:
3306
-
Connect_Retry:
60
-
Master_Log_File: mysql-bin
.000005
-
Read_Master_Log_Pos:
120
-
Relay_Log_File: hdp4-relay-bin
.000015
-
Relay_Log_Pos:
283
-
Relay_Master_Log_File: mysql-bin
.000005
-
Slave_IO_Running: Yes
-
Slave_SQL_Running: Yes
-
Replicate_Do_DB:
-
Replicate_Ignore_DB:
-
Replicate_Do_Table:
-
Replicate_Ignore_Table:
-
Replicate_Wild_Do_Table:
-
Replicate_Wild_Ignore_Table:
-
Last_Errno:
0
-
Last_Error:
-
Skip_Counter:
0
-
Exec_Master_Log_Pos:
120
-
Relay_Log_Space:
618
-
Until_Condition: None
-
Until_Log_File:
-
Until_Log_Pos:
0
-
Master_SSL_Allowed: No
-
Master_SSL_CA_File:
-
Master_SSL_CA_Path:
-
Master_SSL_Cert:
-
Master_SSL_Cipher:
-
Master_SSL_Key:
-
Seconds_Behind_Master:
0
-
Master_SSL_Verify_Server_Cert: No
-
Last_IO_Errno:
0
-
Last_IO_Error:
-
Last_SQL_Errno:
0
-
Last_SQL_Error:
-
Replicate_Ignore_Server_Ids:
-
Master_Server_Id:
126
-
Master_UUID: fadd5b7d
-7d9f
-11e8
-90b4
-13ccc7802b56
-
Master_Info_File: /data/master.info
-
SQL_Delay:
0
-
SQL_Remaining_Delay:
NULL
-
Slave_SQL_Running_State: Slave has read all relay
log; waiting
for the slave I/O thread
to update it
-
Master_Retry_Count:
86400
-
Master_Bind:
-
Last_IO_Error_Timestamp:
-
Last_SQL_Error_Timestamp:
-
Master_SSL_Crl:
-
Master_SSL_Crlpath:
-
Retrieved_Gtid_Set:
-
Executed_Gtid_Set:
-
Auto_Position:
0
-
1 row
in
set (
0.00 sec)
-
-
mysql>
5. 杀掉master的mysqld进程
在172.16.1.126上用root执行:
pkill -9 mysqld
6. 查看VIP
172.16.1.126、172.16.1.127上的IP分别如图3、图4所示。
可以看到,VIP已经漂移到172.16.1.127上。
7. 查看客户端连接
-
C:\WINDOWS\system32>mysql -utest -p123456 -h172.
16.1.
100 -e
"show variables like 'server_id'"
-
mysql: [Warning] Using a password on the command line interface can be insecure.
-
+---------------+-------+
-
| Variable_name | Value
|
-
+---------------+-------+
-
| server_id
| 127 |
-
+---------------+-------+
-
-
C:\WINDOWS\system32>
可以看到,现在客户端通过VIP连接到slave上。
8. 查看172.16.1.127上slave的状态
-
mysql> show slave status\G
-
ERROR
2006 (HY000): MySQL server has gone away
-
No connection. Trying
to reconnect...
-
Connection id:
7333
-
Current database: *** NONE ***
-
-
Empty
set (
0.00 sec)
-
-
mysql> show slave status\G
-
Empty
set (
0.00 sec)
-
-
mysql> show variables
like
'read-only';
-
Empty
set (
0.00 sec)
-
-
mysql> show variables
like
'read_only';
-
+---------------+-------+
-
| Variable_name | Value |
-
+---------------+-------+
-
| read_only |
OFF |
-
+---------------+-------+
-
1 row
in
set (
0.00 sec)
-
-
mysql>
可以看到,slave状态已经被重置,read_only也已经关闭。配置文件中的read-only参数也已经注释。
-
[
mysql@hdp4~]$more /home/mysql/mysql
-5.6
.14/my.cnf
-
[mysqld]
-
basedir = /home/mysql/mysql
-5.6
.14
-
datadir=/
data
-
skip-name-resolve
-
user=mysql
-
binlog_format=row
-
default-storage-engine=InnoDB
-
transaction_isolation = READ-COMMITTED
-
log-bin=/
data/mysql-bin
-
log-bin-index = /
data/mysql-bin.index
-
tmpdir = /
data
-
server-id =
127
-
innodb_data_home_dir = /
data
-
innodb_log_group_home_dir=/
data
-
-
sql_mode=NO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABLES
-
-
# plugin-load=rpl_semi_sync_master=semisync_master.so
-
# rpl_semi_sync_master_enabled=
1
-
#read-only
至此完成了MySQL自动主从切换,整个过程对客户端透明。
原文地址https://blog.csdn.net/wzy0623/article/details/81188814