巧用Event发现问题

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 巧用Event发现问题

有了前面对Event的了解,我们就可以利用这些Event来完成一些工作了。我曾经在学习了这些常用的Event后,使用C语言写过一个解析Event的工具,我叫它‘infobin’,意思就是从binary log提取信息的意思。据我所知虽然这个工具在少数情况下会出现BUG但是还是有些朋友在用。我这里并不是要推广我的工具,而是要告诉大家这种思路。我是结合工作中遇到的一些问题来完成了这个工具的,主要功能包含如下:

  • 分析binary log中是否有长期未提交的事务 ,长期不提交的事务将会引发更多的锁争用。
  • 分析binary log中是否有大事务 ,大事务的提交可能会堵塞其它事务的提交。
  • 分析binary log中每个表生成了多少DML Event,这样就能知道哪个表的修改量最大。
  • 分析binary log中Event的生成速度,这样就能知道哪个时间段生成的Event更多。

下面是这个工具的地址,供大家参考(我已经很久没更新了):https://github.com/gaopengcarl/infobin

这个工具的帮助信息如下:

  1. [root@gp1 infobin]#  ./infobin
  2. USAGE ERROR!
  3. [Author]: gaopeng [QQ]:22389860[blog]:http://blog.itpub.net/7728585/
  4. --USAGE:./infobin binlogfile pieces bigtrxsize bigtrxtime [-t][-force]
  5. [binlogfile]:binlog file!
  6. [piece]:how many piece will split,is a Highly balanced histogram,
  7.        find which time generate biggest binlog.(must:piece<2000000)
  8. [bigtrxsize](bytes):larger than this size trx will view.(must:trx>256(bytes))
  9. [bigtrxtime](sec):larger than this sec trx will view.(must:>0(sec))
  10. [[-t]]:if[-t]no detail isprintout,the result will small
  11. [[-force]]:force analyze if unkown error check!!

接下来我们具体来看看这几个功能大概是怎么实现的。


一、分析长期未提交的事务

前面我已经多次提到过对于一个手动提交的事务而言有如下特点,我们以‘Insert’语句为列:

GTIDLOGEVENT和XIDEVENT是命令‘COMMIT’发起的时间。QUERYEVENT是第一个‘Insert’命令发起的时间。MAPEVENT/WRITEROWS_EVENT是每个‘Insert’命令发起的时间。那实际上我们就可以用(1)减去(2)就能得到第一个‘DML’命令发起到‘COMMIT’命令发起之间所消耗的时间,再使用一个用户输入参数来自定义多久没有提交的事务叫做长期未提交的事务就可以了,我的工具中使用bigtrxtime作为这个输入。我们来用一个例子说明,我们做如下语句:

语句 时间
begin T1
insert into testrr values(20); 11:25:22
insert into testrr values(30); 11:25:26
insert into testrr values(40); 11:25:28
commit; 11:25:30

我们来看看Event的顺序和时间如下:

Event 时间
GTIDLOGEVENT 11:25:30
QUERY_EVENT 11:25:22
MAP_EVENT(第1个insert) 11:25:22
WRITEROWSEVENT(第1个insert) 11:25:22
MAP_EVENT(第2个insert) 11:25:26
WRITEROWSEVENT(第2个insert) 11:25:26
MAP_EVENT(第3个insert) 11:25:28
WRITEROWSEVENT(第3个insert) 11:25:28
XID_EVENT 11:25:30

如果我们使用最后一个XIDEVENT的时间减去QUERYEVENT的时间,那么这个事务从第一条语句开始到‘COMMIT’的时间就计算出来了。注意一点,实际上‘BEGIN’命令并没有记录到Event中,它只是做了一个标记让事务不会自动进入提交流程,关于‘BEGIN’命令做了什么可以参考我的简书文章如下:https://www.jianshu.com/p/6de1e8071279


二、分析大事务

这部分实现比较简单,我们只需要扫描每一个事务GTIDLOGEVENT和XIDEVENT之间的所有Event将它们的总和计算下来,就可以得到每一个事务生成Event的大小(但是为了兼容最好计算QUERYEVENT和XID_EVENT之间的Event总量)。再使用一个用户输入参数自定义多大的事务叫做大事务就可以了,我的工具中使用bigtrxsize作为这个输入参数。

如果参数binlogrowimage参数设置为‘FULL’,我们可以大概计算一下特定表的每行数据修改生成的日志占用的大小:

‘Insert’和‘Delete’:因为只有beforeimage或者afterimage,因此100字节一行数据加上一些额外的开销大约加上10字节也就是110字节一行。如果定位大事务为100M那么大约修改量为100W行数据。

‘Update’:因为包含beforeimage和afterimage,因此上面的计算的110字节还需要乘以2。因此如果定位大事务为100M那么大约修改量为50W行数据。我认为20M作为大事务的定义比较合适,当然这个根据自己的需求进行计算。


三、分析binary log中Event的生成速度

这个实现就很简单了,我们只需要把binary log按照输入参数进行分片,统计结束Event和开始Event的时间差值就能大概算出每个分片生成花费了多久时间,我们工具使用piece作为分片的传入参数。

通过这个分析,我们可以大概知道哪一段时间Event生成量更大,也侧面反映了数据库的繁忙程度。


四、分析每个表生成了多少DML Event

这个功能也非常实用,通过这个分析我们可以知道数据库中哪一个表的修改量最大。实现方式主要是通过扫描binary log中的MAP_EVENT和接下来的DML Event,通过table id获取表名,然后将DML Event的大小归入这个表中,做一个链表,最后排序输出就好了。

但是前面我们说过table id即便在一个事务中也可能改变,这是我开始没有考虑到的,因此这个工具有一定的问题,但是大部分情况是可以正常运行的。


五、工具展示

下面我就来展示一下我说的这些功能,我做了如下操作:

  1. mysql> flush binary logs;
  2. Query OK,0 rows affected (0.51 sec)

  3. mysql>select count(*)from tti;
  4. +----------+
  5. | count(*)|
  6. +----------+
  7. |    98304|
  8. +----------+
  9. 1 row inset(0.06 sec)

  10. mysql>deletefrom tti;
  11. Query OK,98304 rows affected (2.47 sec)

  12. mysql>begin;
  13. Query OK,0 rows affected (0.00 sec)

  14. mysql> insert into tti values(1,'gaopeng');
  15. Query OK,1 row affected (0.00 sec)

  16. mysql>select sleep(20);
  17. +-----------+
  18. | sleep(20)|
  19. +-----------+
  20. |         0|
  21. +-----------+
  22. 1 row inset(20.03 sec)

  23. mysql> commit;
  24. Query OK,0 rows affected (0.22 sec)

  25. mysql> insert into tpp values(10);
  26. Query OK,1 row affected (0.14 sec)

在示例中我切换了一个binary log,同时做了3个事务:

删除了tti表数据一共98304行数据。向tti表插入了一条数据,等待了20多秒提交。向tpp表插入了一条数据。我们使用工具来分析一下,下面是统计输出:

  1. ./infobin mysql-bin.0000053100000015-t > log.log
  2. more log.log

  3. ...
  4. -------------Total now--------------
  5. Trx total[counts]:3
  6. Event total[counts]:125
  7. Max trx event size:8207(bytes)Pos:420[0X1A4]
  8. Avg binlog size(/sec):9265.844(bytes)[9.049(kb)]
  9. Avg binlog size(/min):555950.625(bytes)[542.921(kb)]
  10. --Piece view:
  11. (1)Time:1561442359-1561442383(24(s)) piece:296507(bytes)[289.558(kb)]
  12. (2)Time:1561442383-1561442383(0(s)) piece:296507(bytes)[289.558(kb)]
  13. (3)Time:1561442383-1561442455(72(s)) piece:296507(bytes)[289.558(kb)]
  14. --Large than 500000(bytes) trx:
  15. (1)Trx_size:888703(bytes)[867.874(kb)] trx_begin_p:299[0X12B]
  16. trx_end_p:889002[0XD90AA]
  17. Total large trx count size(kb):#867.874(kb)
  18. --Large than 15(secs) trx:
  19. (1)Trx_sec:31(sec)  trx_begin_time:[2019062514:00:08(CST)]
  20. trx_end_time:[2019062514:00:39(CST)] trx_begin_pos:889067
  21. trx_end_pos:889267 query_exe_time:0
  22. --EveryTable binlog size(bytes)and times:
  23. Note:size unit is bytes
  24. ---(1)CurrentTable:test.tpp::
  25.   Insert:binlog size(40(Bytes)) times(1)
  26.   Update:binlog size(0(Bytes)) times(0)
  27.   Delete:binlog size(0(Bytes)) times(0)
  28.   Total:binlog size(40(Bytes)) times(1)
  29. ---(2)CurrentTable:test.tti::
  30.   Insert:binlog size(48(Bytes)) times(1)
  31.   Update:binlog size(0(Bytes)) times(0)
  32.   Delete:binlog size(888551(Bytes)) times(109)
  33.   Total:binlog size(888599(Bytes)) times(110)
  34. ---Total binlog dml event size:888639(Bytes) times(111)

我们发现我们做的操作都统计出来了:

包含一个大事务日志总量大于500K,大小为800K左右,这是我的删除tti表中98304行数据造成的。

  1. --Large than 500000(bytes) trx:
  2. (1)Trx_size:888703(bytes)[867.874(kb)] trx_begin_p:299[0X12B]
  3. trx_end_p:889002[0XD90AA]

包含一个长期未提交的事务,时间为31秒,这是我特意等待20多秒提交引起的。

  1. --Large than 15(secs) trx:
  2. (1)Trx_sec:31(sec)  trx_begin_time:[2019062514:00:08(CST)]
  3. trx_end_time:[2019062514:00:39(CST)] trx_begin_pos:889067
  4. trx_end_pos:889267 query_exe_time:0

本binary log有两个表的修改记录tti和tpp,其中tti表有‘Delete’操作和‘Insert’操作,tpp表只有‘Insert’操作,并且包含了日志量的大小。

  1. --EveryTable binlog size(bytes)and times:
  2. Note:size unit is bytes
  3. ---(1)CurrentTable:test.tpp::
  4.   Insert:binlog size(40(Bytes)) times(1)
  5.   Update:binlog size(0(Bytes)) times(0)
  6.   Delete:binlog size(0(Bytes)) times(0)
  7.   Total:binlog size(40(Bytes)) times(1)
  8. ---(2)CurrentTable:test.tti::
  9.   Insert:binlog size(48(Bytes)) times(1)
  10.   Update:binlog size(0(Bytes)) times(0)
  11.   Delete:binlog size(888551(Bytes)) times(109)
  12.   Total:binlog size(888599(Bytes)) times(110)
  13. ---Total binlog dml event size:888639(Bytes) times(111)

好了到这里我想告诉你的就是,学习了Event过后就可以自己通过各种语言去试着解析binary log,也许你还能写出更好的工具实现更多的功能。

当然也可以通过mysqlbinlog 进行解析后,然后通过shell/python去统计,但是这个工具的速度要远远快于这种方式。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
Web App开发 前端开发 JavaScript
【朴灵评注】JavaScript 运行机制详解:再谈Event Loop
PS: 我先旁观下大师们的讨论,得多看书了~ 别人说的:“看了一下不觉得评注对到哪里去,只有吹毛求疵之感。 比如同步异步介绍,本来就无大错;比如node图里面的OS operation,推敲一下就可以猜到那是指同步操作(自然不走event loop了);至于watcher啥的,显然只是实现上的特色,即使用同一个queue实现也未尝不可” 【原帖: 
3171 0
|
3月前
|
前端开发 JavaScript
深入理解JavaScript中的事件循环(Event Loop):从原理到实践
【10月更文挑战第12天】 深入理解JavaScript中的事件循环(Event Loop):从原理到实践
53 1
|
4月前
|
Java Spring
巧用switch-case消除条件判断
`shigen`是一位致力于撰写博客文章的作者,通过记录成长历程、分享见解并留住感动瞬间。在其文章中,`shigen`介绍了多种消除if-else代码的方法,包括使用HashMap、枚举以及switch-case。最新示例展示了如何通过简洁的switch-case语句处理不同类型的请求,代码优雅且直观。此外,还预告了下一章节将探讨如何利用Spring框架的IOC能力来进一步优化条件判断。与`shigen`一起探索编程世界的每一天都充满新意!**个人IP:shigen**
44 0
巧用switch-case消除条件判断
|
8月前
|
JavaScript 前端开发
js开发:请解释什么是事件委托(event delegation),并给出一个示例。
事件委托是JavaScript中优化事件处理的技术,通过绑定事件处理器到共享的父元素,利用事件冒泡机制来处理子元素的事件。这种方法能提升性能、简化代码并降低内存消耗。示例展示了如何在父元素上监听`click`事件,然后通过`event.target`识别触发事件的具体子元素(如`&lt;li&gt;`),实现对动态生成列表项的点击事件处理。
58 1
|
8月前
|
JavaScript 前端开发
JavaScript DOM 操作:解释一下事件冒泡(Event Bubbling)和事件捕获(Event Capturing)。
【4月更文挑战第14天】JavaScript中的事件处理包括冒泡和捕获两个阶段。事件冒泡是从根节点向目标元素逐级向上传播事件,允许在元素内部捕获外部事件。事件捕获则相反,从根节点向下到目标元素,使得外部能捕获内部事件。`addEventListener`方法用于添加事件监听器,通过`useCapture`参数切换冒泡或捕获阶段处理事件,默认为`false`(冒泡阶段)。兼容性考虑,推荐使用`addEventListener`。
60 0
|
安全 编译器 C#
C#基础知识学习之 ✨ 委托(delegate) 与 事件(event) 之间的介绍
委托(delegate) 与 事件(event) 🔥 前言🙏 在之前的文章里介绍了C#中的委托(delegate) (Action、Func、Predicate)的基本含义及用法 那本篇文章在这里还要介绍一个跟委托有很大关系的小伙伴——C#中的 事件(event)🎅 事件跟委托是有很大联系的,所以也就导致很容易分不清他们两个,以及什么时候用这两个 上面有博客提到委托,想单独了解委托的可以去看一下,本篇文章主要说一下 什么是事件 🎄 以及 事件与委托的区别🎁
C#基础知识学习之 ✨ 委托(delegate) 与 事件(event) 之间的介绍
|
JavaScript 前端开发 API
事件循环机制(Event Loop)的基本认知
事件循环机制(Event Loop)的基本认知
287 0
事件循环机制(Event Loop)的基本认知
|
JavaScript 前端开发
JS引擎的执行机制event loop
JS引擎的执行机制event loop
77 0
|
前端开发
前端学习笔记202305学习笔记第二十五天-事件对象once和event Names讲解
前端学习笔记202305学习笔记第二十五天-事件对象once和event Names讲解
80 0
|
SQL Shell 数据库
巧用Event发现问题
巧用Event发现问题
106 0