【阿里年薪百万数据库面试】MySQL会丢数据吗?(上)

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: 在业务高峰期临时提升性能的方法。WAL机制保证只要redo log和binlog保证持久化到磁盘,就能确保MySQL异常重启后,数据可以恢复。

在业务高峰期临时提升性能的方法。

WAL机制保证只要redo log和binlog保证持久化到磁盘,就能确保MySQL异常重启后,数据可以恢复。

binlog的写入机制

事务执行过程中:

  • 先把日志写到binlog cache
  • 事务提交时,再把binlog cache写到binlog文件

一个事务的binlog不该被拆开,不论事务多大,也要确保一次写入。这就涉及binlog cache的保存问题。


系统给binlog cache分配了一片内存,每个线程一个,但是共用同一份binlog文件。参数 binlog_cache_size控制单个线程内binlog cache所占内存的大小。若超过该参数值,就要暂存到磁盘。


事务提交时,执行器把binlog cache里的完整事务写入binlog,并清空binlog

  • binlog写盘状态
    TODO
    图中的:
  • write
    把日志写入到文件系统的page cache,并没有把数据持久化到磁盘,所以速度较快
  • fsync
    将数据持久化到磁盘。一般认为fsync才占磁盘的IOPS


write 和fsync的时机,由参数sync_binlog控制:

  • sync_binlog=0,每次提交事务都只write,不fsync
  • sync_binlog=1,每次提交事务都会执行fsync
  • sync_binlog=N(N>1),每次提交事务都write,但累积N个事务后才fsync

因此,在出现I/O瓶颈的场景,将sync_binlog设置成一个较大值,可提升性能。在实际的业务场景中,考虑到丢失日志量的可控性,一般不建议将这个参数设成0,推荐将其设置为100~1000中的某个数值。


但将sync_binlog设置为N,对应的风险是:若主机发生异常重启,会丢失最近N个事务的binlog日志。

redo log的写入机制

接下来,我们再说说redo log的写入机制。

事务在执行过程中,生成的redo log是要先写到redo log buffer的。

  • 那redo log buffer的内容,是不是每次生成后都要直接持久化到磁盘呢?
    不需要。

若事务执行期间MySQL异常重启,那这部分日志就丢了。由于事务也尚未提交,所以这时日志丢了也没有损失。

  • 那事务还没提交时,redo log buffer中的部分日志有没有可能被持久化到磁盘呢?
    会有。

这个问题,要从redo log可能存在的三种状态说起。这三种状态,对应的就是图2 中的三个颜色块。

  • MySQL redo log存储状态
    TODO
    三种状态:
  • 存在redo log buffer
    物理上是在MySQL进程内存
  • 写到磁盘(write),但还没持久化(fsync)
    物理上是在文件系统的page cache
  • 持久化到磁盘,即hard disk

日志写到redo log buffer很快,wirte到page cache也差不多,但持久化到磁盘就很慢了。

InnoDB提供innodb_flush_log_at_trx_commit参数控制redo log的写入策略:

  • 0,每次事务提交时都只是把redo log留在redo log buffer中
  • 1,每次事务提交时都将redo log直接持久化到磁盘
  • 2,每次事务提交时都只是把redo log写到page cache

InnoDB的一个后台线程,会每隔1s把redo log buffer中的日志,调用write写到文件系统的page cache,然后调用fsync持久化到磁盘。


事务执行中间过程的redo log也是直接写在redo log buffer,这些redo log也会被后台线程一起持久化到磁盘。即一个没有提交的事务的redo log,也可能已经持久化到磁盘。


除了后台线程每s一次的轮询操作,还有两种场景会让一个未提交的事务的redo log写入磁盘:


redo log buffer占用的空间即将达到 innodb_log_buffer_size的一半,后台线程会主动写盘

由于这个事务并未提交,所以这个写盘动作只是write,没有调用fsync,即只留在文件系统的page cache。

并行的事务提交时,顺带将该事务的redo log buffer持久化到磁盘

假设一个事务A执行到一半,已经写了一些redo log到buffer,这时另外一个线程的事务B提交,若innodb_flush_log_at_trx_commit是1,则事务B要把redo log buffer里的日志全部持久化到磁盘。这时,就会带上事务A在redo log buffer里的日志一起持久化到磁盘。

两阶段提交的过程,时序上redo log先prepare,再写binlog,最后再把redo log commit。


若把innodb_flush_log_at_trx_commit置1,则redo log在prepare阶段就要持久化一次,因为有一个崩溃恢复逻辑是要依赖于prepare 的redo log,再加上binlog来恢复的。


每s一次的后台轮询刷盘,再加上崩溃恢复,InnoDB就认为redo log在commit时无

需fsync,只write到文件系统的page cache就够了。


通常我们说MySQL的“双1”配置,指的就是sync_binlog、innodb_flush_log_at_trx_commit都是1。即一个事务完整提交前,需要等待两次刷盘:


redo log(prepare 阶段)

binlog

那这意味着我从MySQL看到TPS是2w,每秒就会写四万次磁盘。但我用工具测试,磁盘能力也就2w左右,怎么能实现2w TPS?

得用组提交(group commit)来解释了。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
8月前
|
缓存 NoSQL 关系型数据库
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
|
8月前
|
存储 关系型数据库 MySQL
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
阿里面试:MySQL 一个表最多 加几个索引? 6个?64个?还是多少?
|
6月前
|
SQL 人工智能 关系型数据库
如何实现MySQL百万级数据的查询?
本文探讨了在MySQL中对百万级数据进行排序分页查询的优化策略。面对五百万条数据,传统的浅分页和深分页查询效率较低,尤其深分页因偏移量大导致性能显著下降。通过为排序字段添加索引、使用联合索引、手动回表等方法,有效提升了查询速度。最终建议根据业务需求选择合适方案:浅分页可加单列索引,深分页推荐联合索引或子查询优化,同时结合前端传递最后一条数据ID的方式实现高效翻页。
364 0
|
7月前
|
监控 Java 数据安全/隐私保护
阿里面试:SpringBoot启动时, 如何执行扩展代码?你们项目 SpringBoot 进行过 哪些 扩展?
阿里面试:SpringBoot启动时, 如何执行扩展代码?你们项目 SpringBoot 进行过 哪些 扩展?
|
5月前
|
存储 关系型数据库 MySQL
在CentOS 8.x上安装Percona Xtrabackup工具备份MySQL数据步骤。
以上就是在CentOS8.x上通过Perconaxtabbackup工具对Mysql进行高效率、高可靠性、无锁定影响地实现在线快速全量及增加式数据库资料保存与恢复流程。通过以上流程可以有效地将Mysql相关资料按需求完成定期或不定期地保存与灾难恢复需求。
477 10
|
6月前
|
负载均衡 架构师 Cloud Native
阿里面试:服务与发现 ,该选 CP 还是 AP?为什么?
阿里面试:服务与发现 ,该选 CP 还是 AP?为什么?
阿里面试:服务与发现 ,该选  CP 还是 AP?为什么?
|
6月前
|
SQL 存储 缓存
MySQL 如何高效可靠处理持久化数据
本文详细解析了 MySQL 的 SQL 执行流程、crash-safe 机制及性能优化策略。内容涵盖连接器、分析器、优化器、执行器与存储引擎的工作原理,深入探讨 redolog 与 binlog 的两阶段提交机制,并分析日志策略、组提交、脏页刷盘等关键性能优化手段,帮助提升数据库稳定性与执行效率。
174 0
|
7月前
|
SQL Java 数据库连接
阿里腾讯互联网公司校招 Java 面试题总结及答案解析
本文总结了阿里巴巴和腾讯等互联网大厂的Java校招面试题及答案,涵盖Java基础、多线程、集合框架、数据库、Spring与MyBatis框架等内容。从数据类型、面向对象特性到异常处理,从线程安全到SQL优化,再到IOC原理与MyBatis结果封装,全面梳理常见考点。通过详细解析,帮助求职者系统掌握Java核心知识,为校招做好充分准备。资源链接:[点击下载](https://pan.quark.cn/s/14fcf913bae6)。
226 2

推荐镜像

更多