使用Heartbeat实现MySQL主从高可用

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 使用Heartbeat实现MySQL主从高可用 前面我们使用Keepalived实现MySQL主从复制的失败自动切换,参见“使用Keepalived实现MySQL主从高可用”。本篇介绍如何利用Heartbeat来完成相同的功能。

使用Heartbeat实现MySQL主从高可用

前面我们使用Keepalived实现MySQL主从复制的失败自动切换,参见“使用Keepalived实现MySQL主从高可用”。本篇介绍如何利用Heartbeat来完成相同的功能。从安装、配置、使用、维护等角度上对比,Keepalived都比Heartbeat简单得多,尤其是Heartbeat 2.1.4后拆分成3个子项目,安装、配置、使用都比较复杂。Heartbeat虽然复杂,但功能更强大,配套工具更全,适合做大型集群管理。

一、Heartbeat简介

        通过Heartbeat,可以将资源(ip以及程序服务等资源)从一台已经故障的计算机快速转移到另一台正常运转的机器上继续提供服务,一般称之为高可用服务。官方网址:http://www.linux-ha.org/wiki/Heartbeat

        通过修改Heartbeat的配置文件,可以指定一台Heartbeat服务器作为主服务器,另一台自动成为热备服务器。在热备服务器上面配置Heartbeat守护程序来监听来自主服务器的心跳信息。如果在规定时间内,无法监听到心跳信息,那么就启动故障转移,取得主服务器上的相关资源的所有权,接替主服务器继续不间断的提供服务,从而达到资源以及服务高可用的目的。一般故障切换时间在5~20s之间。Heartbeat还支持主主模式,及两台服务器互为主备。

        另外,和Keepalived的服务一样,Heartbeat高可用是服务器级别的,不是服务级别的。它可以监测以下系统问题:

  1. 服务器宕机
  2. Heartbeat软件故障
  3. 心跳连接线故障

        服务故障不会导致切换,但可以通过服务宕机把Heartbeat服务停掉,从而主机实现自动切换。至少需要两台主机才可以实现高可用服务。两台Heartbeat服务之间可以通过以下方式进行通信:

  • 穿行电缆,所谓的串口(首选,缺点是距离不能太远)
  • 一根以太网电缆两网卡直连(常用方式)
  • 以太网电缆,通过交换机等网络设备连接。(交换机可能出现问题等)

        Heartbeat通过ip地址接管和arp广播进行故障转移的。在主服务器故障时,备用节点接管资源后,会立即强制更新所有客户端本地的arp表,即清楚客户端本地缓存的故障服务器的vip和mac地址的解析记录,确保客户端和新的主服务器的对话。

        真实ip,又被称为管理ip,一般指配置在物理网卡上面的ip。在负载均衡高可用环境中,管理ip是不对外提供访问服务的,仅作为管理服务器使用,如SSH可以通过这个进行服务连接管理。VIP是虚拟ip,实际上就是eth0:X,x为0~255的任意数字,可以在一个网卡上面绑定多个别名。VIP当主服务器故障时,可以自动漂移到备用服务器。

二、安装Heartbeat

        环境:
        CentOS Linux release 7.2.1511 (Core)
        MySQL Master     172.16.1.126
        MySQL Slave      172.16.1.127
        VIP              172.16.1.100

        MySQL主从复制配置从略。

        安装Heartbeat源码安装需要依次安装Cluster Glue、Resource Agents和Heartbeat 三个软件,并且三个软件要安装在相同目录下。以下步骤均在172.16.1.126、172.16.1.127两台机器上用root用户操作。

1. 下载软件包

        Heartbeat 3.0.6:http://hg.linux-ha.org/heartbeat-STABLE_3_0/archive/958e11be8686.tar.bz2
        Cluster Glue 1.0.12:http://hg.linux-ha.org/glue/archive/0a7add1d9996.tar.bz2
        Resource Agents 3.9.6:https://github.com/ClusterLabs/resource-agents/archive/v3.9.6.tar.gz

2. 初始配置

(1)禁用防火墙
        在/etc/selinux/config文件中设置SELINUX=disabled,并执行:

systemctl disable firewalld

(2)设置主机名
        编辑/etc/hosts文件内容如下:



   
   
  1. 127 .0 .0 .1   localhost localhost .localdomain localhost4 localhost4 .localdomain4
  2. ::1         localhost localhost .localdomain localhost6 localhost6 .localdomain6
  3. 172 .16 .1 .126 hdp3
  4. 172 .16 .1 .127 hdp4

        设置主机名:
        在172.16.1.126上:

hostnamectl set-hostname hdp3

        在172.16.1.127上:

hostnamectl set-hostname hdp4

(3)安装依赖包

yum -y install glib2-devel libtool-ltdl-devl net-snmp-devel bzip2-devel ncurses-devel openssl-devel libtool libxml2 libxml2-devel gettext bison flex zlib-devel mailx which libxslt docbook-dtds docbook-style-xsl PyXML shadow-utils opensp autoconf automake bzip2 e2fsprogs-devel libxslt-devel libtool-ltdl-devel make asciidoc libuuid-devel

(4)建立用户



   
   
  1. groupadd haclient
  2. useradd -g haclient -M -s /sbin/nologin hacluster

3. 安装Cluster Glue 1.0.12



   
   
  1. bunzip2 0a7add1d9996.tar.bz2
  2. tar -xf 0a7add1d9996.tar
  3. cd Reusable-Cluster-Components-glue- -0a7add1d9996
  4. ./autogen.sh
  5. ./configure --prefix=/usr/local/heartbeat && make && make install

4. 安装Resource Agents 3.9.6



   
   
  1. tar -zxf resource-agents-3.9.6.tar.gz 
  2. cd resource-agents-3.9.6
  3. ./autogen.sh
  4. export CFLAGS= "$CFLAGS -I/usr/local/heartbeat/include -L/usr/local/heartbeat/lib"
  5. ./configure --prefix=/usr/ local/heartbeat/
  6. ln -s  /usr/ local/heartbeat/lib/* /lib/
  7. ln -s  /usr/ local/heartbeat/lib/* /lib64/
  8. make && make install

5. 安装Heartbeat 3.0.6



   
   
  1. tar -vxjf 958e11be8686.tar.bz2
  2. cd Heartbeat-3-0-958e11be8686/
  3. ./bootstrap
  4. ./configure --prefix=/usr/ local/heartbeat/
  5. make

        报错:

/usr/local/heartbeat/include/heartbeat/glue_config.h:105:0: error: "HA_HBCONF_DIR" redefined [-Werror]

        说明在glue.config.h中,宏HA_HBCONF_DIR被定义了多次,编辑glue_conf.h文件,注释掉最后一行定义宏的代码:

vi /usr/local/heartbeat/include/heartbeat/glue_config.h

        将如下的最后一行删除并保存退出。

#define HA_HBCONF_DIR "/usr/local/heartbeat/etc/ha.d/"              #  

        继续编译安装,通过。

make && make install

三、配置



   
   
  1. cd /usr/ local/heartbeat/share/doc/heartbeat
  2. cp -a ha.cf authkeys haresources /usr/ local/heartbeat/etc/ha.d/
  3. cd /usr/ local/heartbeat/etc/ha.d
  4. chmod 600 etc/ha.d/authkeys
  5. ln -svf /usr/ local/heartbeat/lib64/heartbeat/plugins/RAExec/* /usr/ local/heartbeat/lib/heartbeat/plugins/RAExec/
  6. ln -svf /usr/ local/heartbeat/lib64/heartbeat/plugins/* /usr/ local/heartbeat/lib/heartbeat/plugins/ 

        需要编辑ha.cf、authkeys和haresources三个配置文件,文件位置为/usr/local/heartbeat/etc/ha.d/。

1. 编辑配置文件ha.cf

        172.16.1.126上的ha.cf文件内容如下:



   
   
  1. [root@hdp3~] #more /usr/local/heartbeat/etc/ha.d/ha.cf 
  2. # 保存调试信息文件
  3. debugfile /var/ log/ha-debug         
  4. # 日志文件
  5. logfile /var/ log/ha- log
  6. # 表示使用系统日志            
  7. logfacility local 0 
  8. # 心跳的时间间隔,单位秒                 
  9. keepalive 1                         
  10. # 超出该时间间隔未收到对方节点的心跳,则判定对方死亡
  11. deadtime 30  
  12. # 超出该时间间隔未收到对方节点的心跳,则发出警告记录到日志中                       
  13. warntime 10 
  14. #  在某系统上,系统启动或重启之后需要经过一段时间网络才能正常工作,该选项用于解决这种情况产生的时间间隔,取值至少为deadtime的2倍                         
  15. initdead 120  
  16. # 设置广播通信使用的端口,694为默认使用的端口号                           
  17. udpport 694                         
  18. # 传播心跳的广播播网卡信息
  19. bcast ens32      
  20. # 设置对方机器心跳检测的IP                   
  21. ucast ens32 172.16. 1.127   
  22. # 在该选项设为on的情况下,一旦主节点恢复运行,则自动获取资源并取代从节点         
  23. auto_failback off              
  24. # 配置主从的节点信息
  25. node hdp3                           
  26. node hdp4           
  27. # 如果ping不通该地址,就认为当前断网,需要转移vip
  28. ping 172.16. 1.254                   
  29. # 指定与heartbeat一同启动和关闭的进程,该进程被自动监视,遇到故障则重新启动。最常用的进程是ipfail,该进程用于检测和处理网络故障,需要配合ping语句指定的ping node来检测网络连接。如果你的系统是64bit,请注意该文件的路径
  30. respawn hacluster /usr/ local/heartbeat/libexec/heartbeat/ipfail  
  31. # 指定用户和组
  32. apiauth ipfail gid=haclient uid=hacluster

        172.16.1.127上的/usr/local/heartbeat/etc/ha.d/ha.cf文件除了以下两个配置项的信息外,其它和172.16.1.126的相同。



   
   
  1. # 传播心跳的广播播网卡信息
  2. bcast ens160  
  3. # 设置对方机器心跳检测的网卡和 IP                      
  4. ucast ens160 172 .16 .1 .126    

2. 编辑认证文件authkeys

        172.16.1.126与172.16.1.127上的authkeys文件相同,内容如下:



   
   
  1. [root@hdp3~] #more /usr/local/heartbeat/etc/ha.d/authkeys
  2. auth 2
  3. 2 sha1 HI!

3. 编辑资源配置文件haresources

        所有节点的haresources文件必须相同,本例中只有一行:



   
   
  1. [root@hdp3~] #more /usr/local/heartbeat/etc/ha.d/haresources 
  2. hdp3 172.16. 1.100 mysql

hdp为主节点,172.16.1.100是VIP,mysql是主机启动后自动执行的自定义脚本文件名,所在目录为 haresources同级目录下的resource.d目录下。mysql文件内容只有一行:



   
   
  1. [root@hdp3~] #more /usr/local/heartbeat/etc/ha.d/resource.d/mysql 
  2. /home/mysql/remove_slave.sh

        在主从切换后,原来的slave变为master,需要重置其slave状态,并将只读关闭。remove_slave.sh文件内容如下:



   
   
  1. [root@hdp3~] #more /home/mysql/remove_slave.sh
  2. #!/bin/bash
  3. . /home/mysql/.bashrc
  4. user=root
  5. password=123456
  6. log=/home/mysql/remove_slave.log
  7. echo "`date`" >> $log
  8. rm -rf /tmp/kill.sql
  9. mysql -u $user -p $password -e "select * into outfile '/tmp/kill.sql' from (select concat('kill ',id,';') from information_schema.processlist where command='sleep' union all select 'set global read_only=OFF;' union all select 'stop slave;' union all select 'reset slave all;') t;"
  10. mysql -u $user -p $password < /tmp/kill.sql >> $log
  11. /bin/sed -i 's#read-only#\#read-only#' /home/mysql/mysql-5.6.14/my.cnf

4. 创建MySQL服务检测脚本



   
   
  1. [root@hdp3~] #more /home/mysql/mysql_check.sh 
  2. #!/bin/bash
  3. . /home/mysql/.bashrc
  4. count=1
  5. while true
  6. do
  7. mysql -uroot -p123456 -S /data/mysql.sock -e "show status;" > /dev/null 2>&1
  8. i=$?
  9. ps aux | grep mysqld | grep -v grep > /dev/null 2>&1
  10. j=$?
  11. if [ $i = 0 ] && [ $j = 0 ]
  12. then
  13.    sleep 3
  14. else
  15.     if [ $i = 1 ] && [ $j = 0 ]
  16.     then
  17.        sleep 3
  18.     else
  19.         if [ $count -gt 5 ]
  20.         then
  21.               break
  22.         fi
  23.     let count++
  24.     continue
  25.     fi
  26. fi
  27. done
  28. /etc/init.d/heartbeat stop

        mysql_check.sh脚本每三秒检测一次MySQL状态,如果本机MySQL不可用,怎关闭heartbeat服务,是VIP漂移到对方主机。先将该文件放到crontab中自动执行,待启动后再将其从crontab中去掉即可。

        172.16.1.126、172.16.1.127上的mysql、remove_slave.sh、mysql_check.sh三个脚本文件相同。

四、测试

1. 启动两个主机的heartbeat服务



   
   
  1. chkconfig heartbeat on
  2. systemctl start heartbeat

2. 查看VIP
        172.16.1.126、172.16.1.127上的IP分别如图1、图2所示。

图1
图2

        可以看到,初始VIP绑定在172.16.1.126上。

3. 查看客户端连接



   
   
  1. C:\WINDOWS\system32>mysql -utest -p123456 -h172. 16.1. 100 -e "show variables like 'server_id'"
  2. mysql: [Warning] Using a password on the command line interface can be insecure.
  3. +---------------+-------+
  4. | Variable_name | Value |
  5. +---------------+-------+
  6. | server_id     | 126   |
  7. +---------------+-------+
  8. C:\WINDOWS\system32>

        可以看到,现在客户端通过VIP连接到master上。

4. 查看172.16.1.127上slave的状态



   
   
  1. mysql> show slave status\G
  2. *************************** 1. row ***************************
  3.                Slave_IO_State: Waiting for master to send event
  4.                   Master_Host: 172.16 .1 .126
  5.                   Master_User: repl
  6.                   Master_Port: 3306
  7.                 Connect_Retry: 60
  8.               Master_Log_File: mysql-bin .000005
  9.           Read_Master_Log_Pos: 120
  10.                Relay_Log_File: hdp4-relay-bin .000015
  11.                 Relay_Log_Pos: 283
  12.         Relay_Master_Log_File: mysql-bin .000005
  13.              Slave_IO_Running: Yes
  14.             Slave_SQL_Running: Yes
  15.               Replicate_Do_DB: 
  16.           Replicate_Ignore_DB: 
  17.            Replicate_Do_Table: 
  18.        Replicate_Ignore_Table: 
  19.       Replicate_Wild_Do_Table: 
  20.   Replicate_Wild_Ignore_Table: 
  21.                    Last_Errno: 0
  22.                    Last_Error: 
  23.                  Skip_Counter: 0
  24.           Exec_Master_Log_Pos: 120
  25.               Relay_Log_Space: 618
  26.               Until_Condition: None
  27.                Until_Log_File: 
  28.                 Until_Log_Pos: 0
  29.            Master_SSL_Allowed: No
  30.            Master_SSL_CA_File: 
  31.            Master_SSL_CA_Path: 
  32.               Master_SSL_Cert: 
  33.             Master_SSL_Cipher: 
  34.                Master_SSL_Key: 
  35.         Seconds_Behind_Master: 0
  36. Master_SSL_Verify_Server_Cert: No
  37.                 Last_IO_Errno: 0
  38.                 Last_IO_Error: 
  39.                Last_SQL_Errno: 0
  40.                Last_SQL_Error: 
  41.   Replicate_Ignore_Server_Ids: 
  42.              Master_Server_Id: 126
  43.                   Master_UUID: fadd5b7d -7d9f -11e8 -90b4 -13ccc7802b56
  44.              Master_Info_File: /data/master.info
  45.                     SQL_Delay: 0
  46.           SQL_Remaining_Delay: NULL
  47.       Slave_SQL_Running_State: Slave has read all relay log; waiting for the slave I/O thread to update it
  48.            Master_Retry_Count: 86400
  49.                   Master_Bind: 
  50.       Last_IO_Error_Timestamp: 
  51.      Last_SQL_Error_Timestamp: 
  52.                Master_SSL_Crl: 
  53.            Master_SSL_Crlpath: 
  54.            Retrieved_Gtid_Set: 
  55.             Executed_Gtid_Set: 
  56.                 Auto_Position: 0
  57. 1 row in set ( 0.00 sec)
  58. mysql> 

5. 杀掉master的mysqld进程
        在172.16.1.126上用root执行:

pkill -9 mysqld

6. 查看VIP
        172.16.1.126、172.16.1.127上的IP分别如图3、图4所示。

图3
图4

        可以看到,VIP已经漂移到172.16.1.127上。

7. 查看客户端连接



   
   
  1. C:\WINDOWS\system32>mysql -utest -p123456 -h172. 16.1. 100 -e "show variables like 'server_id'"
  2. mysql: [Warning] Using a password on the command line interface can be insecure.
  3. +---------------+-------+
  4. | Variable_name | Value |
  5. +---------------+-------+
  6. | server_id     | 127   |
  7. +---------------+-------+
  8. C:\WINDOWS\system32>

        可以看到,现在客户端通过VIP连接到slave上。

8. 查看172.16.1.127上slave的状态



   
   
  1. mysql> show slave status\G
  2. ERROR 2006 (HY000): MySQL server has gone away
  3. No connection. Trying to reconnect...
  4. Connection id:     7333
  5. Current database: *** NONE ***
  6. Empty set ( 0.00 sec)
  7. mysql> show slave status\G
  8. Empty set ( 0.00 sec)
  9. mysql> show variables like 'read-only';
  10. Empty set ( 0.00 sec)
  11. mysql> show variables like 'read_only';
  12. +---------------+-------+
  13. | Variable_name | Value |
  14. +---------------+-------+
  15. | read_only     | OFF   |
  16. +---------------+-------+
  17. 1 row in set ( 0.00 sec)
  18. mysql>

        可以看到,slave状态已经被重置,read_only也已经关闭。配置文件中的read-only参数也已经注释。



   
   
  1. [ mysql@hdp4~]$more /home/mysql/mysql -5.6 .14/my.cnf 
  2. [mysqld]
  3. basedir = /home/mysql/mysql -5.6 .14
  4. datadir=/ data
  5. skip-name-resolve 
  6. user=mysql
  7. binlog_format=row
  8. default-storage-engine=InnoDB
  9. transaction_isolation = READ-COMMITTED
  10. log-bin=/ data/mysql-bin
  11. log-bin-index = / data/mysql-bin.index 
  12. tmpdir = / data
  13. server-id = 127
  14. innodb_data_home_dir = / data
  15. innodb_log_group_home_dir=/ data
  16. sql_mode=NO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABLES 
  17. # plugin-load=rpl_semi_sync_master=semisync_master.so
  18. # rpl_semi_sync_master_enabled= 1
  19. #read-only

        至此完成了MySQL自动主从切换,整个过程对客户端透明。

原文地址https://blog.csdn.net/wzy0623/article/details/81188814

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
存储 SQL 关系型数据库
Mysql高可用架构方案
本文阐述了Mysql高可用架构方案,介绍了 主从模式,MHA模式,MMM模式,MGR模式 方案的实现方式,没有哪个方案是完美的,开发人员在选择何种方案应用到项目中也没有标准答案,合适的才是最好的。
175 3
Mysql高可用架构方案
|
7月前
|
Prometheus 监控 关系型数据库
数据库同步革命:MySQL GTID模式下主从配置的全面解析
数据库同步革命:MySQL GTID模式下主从配置的全面解析
772 0
|
5月前
|
运维 容灾 关系型数据库
MySQL高可用方案--Xenon全解
MySQL高可用方案--Xenon全解
|
7月前
|
运维 容灾 关系型数据库
介绍几种 MySQL 官方高可用方案
MySQL 官方提供了多种高可用部署方案,从最基础的主从复制到组复制再到 InnoDB Cluster 等等。本篇文章以 MySQL 8.0 版本为准,介绍下不同高可用方案架构原理及使用场景。
1447 3
介绍几种 MySQL 官方高可用方案
|
5月前
|
SQL 关系型数据库 MySQL
orchestrator搭建mysql高可用
orchestrator搭建mysql高可用
58 0
|
5月前
|
缓存 关系型数据库 MySQL
如何实现mysql高可用集群
如何实现mysql高可用集群
59 0
|
5月前
|
安全 关系型数据库 MySQL
【MySQL】Orchestrator最简单的 mysql 高可用方案最细细细细~
【MySQL】Orchestrator最简单的 mysql 高可用方案最细细细细~
|
6月前
|
存储 关系型数据库 MySQL
利用 MySQL 克隆插件搭建主从
MySQL 的 Clone 插件是一个强大的功能,首次引入于 MySQL 8.0.17 版本。简单来说,Clone Plugin 是一款物理克隆数据工具,它能够帮助我们快速、高效地克隆或复制数据库,极大地简化了数据库迁移、备份和恢复的过程,让我们在处理大量数据时更加得心应手。本篇文章我们一起来学习下如何使用克隆插件。
93 2
|
6月前
|
运维 关系型数据库 MySQL
【实操记录】MySQL主从配置
本文使用MySQL原生支持的主从同步机制,详细记录了配置步骤及运维操作方法,可供大家直接参考、使用。 本文假设已经部署了两台主机的MySQL软件,且数据库服务正常,详细部署步骤可本站搜索:"mysql二进制安装包部署"
209 0
|
5月前
|
缓存 关系型数据库 MySQL
MySQL调优秘籍曝光!从索引到事务,全方位解锁高可用秘诀,让你的数据库性能飞起来!
【8月更文挑战第6天】MySQL是顶级关系型数据库之一,其性能直接影响应用的高可用性与用户体验。本文聚焦MySQL的高性能调优,从索引设计到事务管理,逐一解析。介绍如何构建高效索引,如联合索引`CREATE INDEX idx_order_customer ON orders(order_id, customer_id);`,以及索引覆盖查询等技术。
86 0