二、案例分享二
2.1 问题描述
主库执行insert select 批量写入操作,主从复制通过row模式下转换为批量的insert大事务操作,导致只读实例CPU资源以及延迟上涨
16:55~17:07
2.2 处理流程
1、接收到只读实例备库延迟告警后,我们观察到只读实例的CPU资源有有明显上涨,同时数据库有大量数据写入操作
2、延迟期间,只读实例的tps的趋势是先下降后上涨,binlog日志量达到12.54G,可以推断出主实例传输过来的批量的写入操作是同一事务中,再加上只读实例配置相对于主实例较低,所以导致这么大的延迟
2、查看主从延迟期间主实例的情况,可以看到主实例确实执行了大量的数据写入操作,以及主实例审计日志中,我们找到了批量写入操作
3、只读实例延迟趋势17:05后,只读实例tps上涨,同时同步延迟开始下降
4、延迟流程描述
- 16:43 主实例执行insert select批量写入操作,主库执行完毕后,binlog以row的模式将所有的insert操作放在一个事务中传输到只读实例
- 16:55 只读实例开始应用该大事务中的insert操作,tps跌落,数据库缓存写/日志写上涨
- 17:05 大事务应用完毕,开始同步延迟期间的binlog操作,正常业务下多个小事务操作,tps上涨明显,延迟开始回落
- 10:07 主从追平延迟期间的binlog,主从延迟恢复为0