slave复制中断 ,别滥用SQL_SLAVE_SKIP_COUNTER
来源:http://blog.chinaunix.net/uid-26364035-id-3588217.html
【问题背景】
1、从库的复制出现中断,如主键冲突;对应的表或者库不存在;基于row复制时,操作的行不存在;
常常大家会通过使用set global SQL_SLAVE_SKIP_COUNTER=n 来跳过导致复制错误的SQL.
2、 使用sql_slave_skip_counter跳过,每一次跳过为一个Binlog event group, 也就相当于一个事务。
所以当一个事务中有两个SQL, 第一个SQL导致主从复制中断,然后我们直接使用SQL_SLAVE_SKIP_COUNTER=1跳过错了
其实第二个SQL也不会在slave中执行了,如果第二个SQL影响100行,那么主从就有100行数据不一致了。
所以 我们在跳过之前,一定要看一下,当前binlog event group到底是什么?
下列是延迟从库,因为表不存在,导到主从复制中断的例
1、查看show slave status的状态
mysql> Show slave status\G
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event
Master_Host: 10.4.12.33
--------------------省略-----------------------------
Master_Log_File: mysql-bin.000123
Read_Master_Log_Pos: 334510571
Relay_Log_File: mysql-relay-bin.000184
Relay_Log_Pos: 534584783
Relay_Master_Log_File: mysql-bin.000112
Slave_IO_Running: Yes
Slave_SQL_Running: No
Last_Errno: 1146
Last_Error: Error 'Table 'dbxxx .table_ general' doesn't exist' on query. Default database: 'dbxxx '. Query: 'truncate table table_ general '
Skip_Counter: 0
Exec_Master_Log_Pos: 534584637
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event
Master_Host: 10.4.12.33
--------------------省略-----------------------------
Master_Log_File: mysql-bin.000123
Read_Master_Log_Pos: 334510571
Relay_Log_File: mysql-relay-bin.000184
Relay_Log_Pos: 534584783
Relay_Master_Log_File: mysql-bin.000112
Slave_IO_Running: Yes
Slave_SQL_Running: No
Last_Errno: 1146
Last_Error: Error 'Table 'dbxxx .table_ general' doesn't exist' on query. Default database: 'dbxxx '. Query: 'truncate table table_ general '
Skip_Counter: 0
Exec_Master_Log_Pos: 534584637
2、根据slave status中的
Relay_Log_File和
Relay_Log_Pos两个值 ,先查看当前被中断的binlog event group操作是什么?
查看的命令:
show relaylog events in "Relay_Log_File" from Relay_Log_Pos limit n;
eg.
mysql> relaylog events in 'mysql-relay-bin.ooo1o4' from 23484738 limit 10;
就可以明显看到,是由于truncate table db58_user_credit_general时, 表db58_user_credit_general不存在, 所以整个binlog group就这一个语句。
处理的方式以下两种都可以:
1)可以直接使用set global SQL_SLAVE_SKIP_COUNTER=1跳过此binlog event group
1)可以直接使用set global SQL_SLAVE_SKIP_COUNTER=1跳过此binlog event group
2) set sql_log_bin=OFF; create table db58_user_credit_general(id int); set sql_log_bin=ON;