MySQL里Wating for Slave workers to free pending events到底在等什么

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: MySQL里Wating for Slave workers to free pending events到底在等什么

一、问题来源

这是一位朋友给我的一个截图,说show slave status一直处于Wating for Slave workers to free pending events状态,这个库是MTS从库,版本为5.7.25

https://mmbiz.qpic.cn/mmbiz_png/nts52nHheTySvftSngeTyZ4sVW3VFHhGibJp0J6O8cNZdfBFjCGFMq8xGoavMpYlHGD3KjD9icxJibUYyemfZGKvw/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1

二、关于等待

我曾经在我的主从原理系列中(已经成书)解释过大部分协调线程的等待,如下:

  • “Waiting for dependent transaction to commit”

由于协调线程判定本事务由于last commit大于current_lwm因此不能并行回放,协调线程处于等待,大事务会加剧这种情况。

  • “Waiting for slave workers to process their queues”

由于没有空闲的工作线程,协调线程会等待。这种情况说明理论上的并行度是理想的,但是可能是参数slave_parallel_workers设置不够。当然设置工作线程的个数应该和服务器的配置和负载相结合考虑。

  • “Waiting for Slave Worker queue”

由于工作线程的任务队列已满,协调线程会等待。这种情况前面说过是由于一个事务包含了过多的Event并且工作线程应用Event的速度赶不上协调线程分配Event的速度,导致了积压并且超过了16384个Event。

但是对于Wating for Slave workers to free pending events等待,只是简单的提及了可能涉及到big event,这里想说的就是实际上这个等待可能和两方面有关:

  1. 如果涉及到big event,那么要求worker线程当前没有积压的event正在执行
  2. 如果不是big event,那么需要判断当前worker线程积压的event大小加上本次进入worker线程对列的event大小之和不能超过参数slave_pending_jobs_size_max的大小

什么是big event呢?根据源码判断如下:

 bool big_event= (ev_size > rli->mts_pending_jobs_size_max);

遇到这种问题应该在日志中能够看到

2020-10-28T14:07:49.522388+08:00 14 [Note] Multi-threaded slave statistics for channel '': seconds elapsed = 676;.....waited due the total size 的大小不为0。

三、判断的维度

这里我们简单考虑一下判断一下可以进入worker线程队列的维度。首先我们说对于woker线程队列来讲他有一个固定的大小也就是积压不能超过16384个event,这里我们还明白来,这些积压的event还不能太大,如果太大就会出现Wating for Slave workers to free pending events等待,因此总结一下:

  • 如果协调线程发现分配的woker线程积压的event个数超过了 16384个event,那么进入Waiting for Slave Worker queue等待
  • 如果协调线程发现分配的worker线程积压的event的大小超过了slave_pending_jobs_size_max设置的大小,那么进入Wating for Slave workers to free pending events等待

当然这是从个数和大小两个不同的维度来判断的,如果一个大事务,我们知道这样的事务会形成很多8K左右的event(比如一次delete了1000W的数据),那么如果只用个数来判断那么就是积压的event大小最多达到(8K*16384=128M),实际上我们的参数slave_pending_jobs_size_max 默认为16M,这种情况下可能协调线程会先触发Wating for Slave workers to free pending events等待。

因此不管是触发了Waiting for Slave Worker queue等待还是Wating for Slave workers to free pending events等待,我们都需要检查一下worker线程回放event的效率是不是遇到了问题。

四、关于源码等待

函数入口append_item_to_jobs

  • 关于等待,如下:
  bool big_event= (ev_size > rli->mts_pending_jobs_size_max);

/*
C waits basing on data sizes in the queues.
If it is a big event (event size is greater than
slave_pending_jobs_size_max but less than slave_max_allowed_packet),
it will wait for all the jobs in the workers's queue to be
completed. If it is normal event (event size is less than
slave_pending_jobs_size_max), then it will wait for
enough empty memory to keep the event in one of the workers's
queue.
NOTE: Receiver thread (I/O thread) is taking care of restricting
the event size to slave_max_allowed_packet. If an event from
the master is bigger than this value, IO thread will be stopped
with error ER_NET_PACKET_TOO_LARGE.
*/
while ( (!big_event && new_pend_size > rli->mts_pending_jobs_size_max)//条件1
|| (big_event && rli->mts_pending_jobs_size != 0 ))//条件2
{
rli->mts_wq_oversize= TRUE;
rli->wq_size_waits_cnt++; // 增加由于big event或者积压大小过多导致的等待次数
thd->ENTER_COND(&rli->pending_jobs_cond, &rli->pending_jobs_lock,
&stage_slave_waiting_worker_to_free_events, &old_stage);//进入等待状态
mysql_cond_wait(&rli->pending_jobs_cond, &rli->pending_jobs_lock);//等待条件变量
mysql_mutex_unlock(&rli->pending_jobs_lock);
thd->EXIT_COND(&old_stage);
if (thd->killed)
return true;
if (rli->wq_size_waits_cnt % 10 == 1)
sql_print_information("Multi-threaded slave: Coordinator has waited "
"%lu times hitting slave_pending_jobs_size_max; "
"current event size = %zu.",
rli->wq_size_waits_cnt, ev_size);
mysql_mutex_lock(&rli->pending_jobs_lock);
new_pend_size= rli->mts_pending_jobs_size + ev_size;
}
  • 关于唤醒,如下:当woker线程执行完event后,会进行减去执行完event size的操作如下,入口函数remove_item_from_jobs:
减去执行完event size
rli->mts_pending_jobs_size-= ev->common_header->data_written;

唤醒
/ coordinator can be waiting /
if (rli->mts_pending_jobs_size < rli->mts_pending_jobs_size_max &&
rli->mts_wq_oversize) // TODO: unit/general test wq_oversize
{
rli->mts_wq_oversize= FALSE;
mysql_cond_signal(&rli->pending_jobs_cond);
}


全文完。



            </div>
相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
SQL 关系型数据库 MySQL
mysql从库SHOW SLAVE STATUS字段详解
mysql从库SHOW SLAVE STATUS字段详解
228 0
|
SQL 关系型数据库 MySQL
Mysql主从同步报错解决:Fatal error: The slave I/O thread stops because ..
Mysql主从同步报错解决:Fatal error: The slave I/O thread stops because ..
717 0
|
SQL 关系型数据库 MySQL
MySQL主从架构之Slave数据滞后Master怎么办?教你一招制敌!
MySQL主从架构之Slave数据滞后Master怎么办?教你一招制敌!
115 0
|
SQL 监控 关系型数据库
MySQL主从复制“死掉”!引发Slave库SQL线程异常的一次“血案”追踪
MySQL主从复制“死掉”!引发Slave库SQL线程异常的一次“血案”追踪
1723 0
|
存储 缓存 关系型数据库
图解MySQL系列(4)-Buffer Pool中的free链表
Buffer Pool中有N多缓存页,每个缓存页还有个描述信息。DB启动后,按BP大小向os申请一块内存区域,作为BP的内存区域。 当内存区域申请完后,DB按默认缓存页及对应描述信息快,在BP中划出一块块内存,当DB把BP划分完后
106 0
|
缓存 负载均衡 NoSQL
在阿里云Centos7.6上面配置Mysql主从数据库(master/slave),实现读写分离
在之前的一篇文章中,阐述了如何在高并发高负载的场景下使用nginx做后台服务的负载均衡:[在阿里云Centos上配置nginx+uwsgi+负载均衡配置](https://v3u.cn/a_id_77),但是不要以为这样做了就是一劳永逸的,到了数据业务层、数据访问层,如果还是传统的数据结构,或者只是单单靠一台服务器负载,如此多的数据库连接操作,数据库必然会崩溃,数据库如果宕机的话,后果更是不堪设想。这时候,我们会考虑如何减少数据库的连接,一方面采用优秀的代码框架,进行代码的优化,采用优秀的数据缓存技术如:redis,如果资金丰厚的话,必然会想到架设mysql服务集群,来分担主数据库的压力。今天
在阿里云Centos7.6上面配置Mysql主从数据库(master/slave),实现读写分离
|
SQL 监控 固态存储
[MySQL优化案例]系列 — slave延迟很大优化方法
[MySQL优化案例]系列 — slave延迟很大优化方法
197 0
|
SQL 监控 关系型数据库
[MySQL FAQ]系列 — MySQL复制中slave延迟监控
[MySQL FAQ]系列 — MySQL复制中slave延迟监控
146 0
|
关系型数据库 MySQL
MySQL里Wating for Slave workers to free pending events到底在等什么
MySQL里Wating for Slave workers to free pending events到底在等什么
|
关系型数据库 MySQL
MySQL里Wating for Slave workers to free pending events到底在等什么
MySQL里Wating for Slave workers to free pending events到底在等什么
下一篇
DataWorks