先说下大体架构: Master下面挂着3个slave,读写分离,3个slave是一个读集群(版本均为Percona 5.1)
故障现象:其中一台机器(暂且称之为C)slave延迟偶尔瞬间为22秒!
可能的情况是:
1、瞬间可能有大量的更新;
2、有些SQL语句耗费太多资源;
3、大事务在执行(大事务:一个事务里面包含过多语句逻辑)
4、磁盘问题
5、系统其他问题
从zabbix监控中,innodb_rows_operate显示中无异常现象,排除1;
从slave的slow_query_log 中,发现部分定时任务的SQL,但与slave并无直接关系(时间点对不上),追踪2;
通过解析binlog,并未发现“大事务”的存在,排除3;
磁盘状态稳定,排除4;
在无直接线索的情况下,只有机器C有延迟状态,对比其他两台机器(暂且成为A,B),发现只有Server C的时间不对(差将近一分钟),貌似已经找到答案;(操作系统规范执行的不彻底啊,该反思),
slave_behiend_master 是由于主从机器时间不对导致的,具体原因,可以参考下官方文档!
本文转自 位鹏飞 51CTO博客,原文链接:http://blog.51cto.com/weipengfei/1359639,如需转载请自行联系原作者