RDS for MySQL 空间问题的原因和解决

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
日志服务 SLS,月写入数据量 50GB 1个月
云数据库 RDS PostgreSQL,高可用系列 2核4GB
简介: RDS for MySQL 空间问题的原因和解决   1. 原因 2. 解决 2.1 Binlog 文件 2.2 数据文件 2.3 临时文件 2.4 系统文件 RDS for MySQL 实例日常使用中随着实例的使用,会出现空间使用告警甚至超过实例限额被锁定的情况。

RDS for MySQL 空间问题的原因和解决

 

1. 原因

2. 解决

2.1 Binlog 文件

2.2 数据文件

2.3 临时文件

2.4 系统文件


RDS for MySQL 实例日常使用中随着实例的使用,会出现空间使用告警甚至超过实例限额被锁定的情况。

比如:

 

1. 原因

  • Binlog 日志文件占用高

  • 数据文件占用高

  • 临时文件占用高

  • 系统文件占用高

实例空间使用情况可以在 RDS 控制台监控报警中查看:

2. 解决

RDS 实例支持单独升级磁盘空间,升级磁盘空间是解决空间问题的有效方式之一。下面说明不升级空间的情况下解决空间问题的方法。

2.1 Binlog日志文件

Binlog 文件记录实例的事务信息,是 RDS MySQL 实例 HA 架构以及高可用性、可恢复性的基础。是不可以关闭的。

RDS 实例会以一定时间间隔自动清理(上传到 RDS OSS 并从实例空间中删除)最近 18 小时外的 Binlog 文件。

如果短时间内实例 DML 操作生成了大量 Binlog 数据,有可能会导致超过实例磁盘空间上限而被锁定。

在这种情况下,可以通过控制台  备份与恢复  一键上传 Binlog 来清理(将 Binlog 文件上传到 RDS OSS 并从实例空间中删除)。

一 键上传 Binlog 会在后台异步提交清理任务,因此点击后会很快返回。清理任务会将完成写入的 Binlog(当前正在被写入的 Binlog 文件由于未完成写入,是不可以被清理的)上传到 RDS 的 OSS (非用户购买OSS)上后才会从实例空间中删除 Binlog 文件,因此会有一定延迟,建议点击后耐心等待一定时间,不建议非常多次点击该按钮。

注:对于实例由于 DML 等操作(比如涉及大字段的 DML 操作)导致快速生成 Binlog 的情况,可能会出现多次点击”一键上传 Binlog “ 按钮但是 Binlog 空间依旧上涨的情况,这是因为上传 Binlog 文件到备份空间并且从实例空间中删除的处理速度跟不上实例生成 Binlog 文件的速度,在这种情况下,建议考虑升级磁盘空间,并且排查 Binlog 快速生成的原因。

2.2 数据文件

对于数据文件占用空间高的情况,可以通过清理数据的方式来减少空间占用情况,比如通过 drop table 和 truncate table 来清理不再需要的数据。

说明 3 个常见问题:

2.2.1 information_schema.tables 查询的数据容量

information_schema.tables 提供的是根据采样获取的表的部分统计信息,因此通过下面的查询获取的表、库数据尺寸和实际数据文件占用尺寸间会有出入(通常要小于实际数据文件占用空间)

select 
    table_name,
    concat(round((data_length + index_length) / 1024 / 1024,
                    2),
            ’MB’)
from
    information_schema.tables
where
    table_schema = 'rd_test'
        and table_name = 'large_tab_01';

 

下图中可以看到:在收集表的统计信息前后反馈出的表数据量大小存在差异。

spa_06.png

  • 注:
    即使通过 analyze table 命令,重新收集统计信息,得到的数值通常也小于实际数据文件占用空间;比如本例的 16143 MB 也小于该表的数据文件实际占用空间。

由于数据文件在频繁的 DML 后会出现数据空洞的现象,比较接近实际数据文件占用空间的计算方法请参考:

select 
    sum(data_length + index_length + data_free) / 1024 / 1024
from
    information_schema.tables;

 

  • 注:
    因为 information_schema.tables 中提供的是采样统计数据,因此该计算方式在统计数据比较接近实际的情况下,才会比较接近真实空间占用情况。

2.2.2 delete 删除数据

delete 操作不能够直接回收被删除数据占用的数据文件空间,这就好比排空泳池中水但泳池的占地面积不会发生改变一样。而且 delete 操作会生成相应的 Binlog 文件,会进一步恶化空间使用情况。

在 delete 操作删除数据后,需要通过 optimize table tab_name; 操作来回收空间。

2.2.3  删除备份

RDS 备份放置在后台 OSS 上,不占用用户的 RDS 实例空间,因此删除备份不能解决实例的空间问题。而且删除备份会影响实例的可恢复性,强烈建议任何情况下不要考虑删除备份。

2.3 临时文件

临时文件会随查询的结束或者会话的终止而自动释放,因此如果是临时文件导致实例空间满而锁定,可以通过终止会话来释放空间。

kill_sess_01.png

IOPS_13.png


2.4 系统文件

系统文件涉及到 ibdata1 系统表空间文件和 ib_logfile0、ib_logfile1 日志文件。

ibdata1文件:

InnoDB 引擎表由于支持多版本并发控制(MVCC),因此会将查询所需的Undo信息保存在系统文件 ibdata1 中。

如果存在对一个 InnoDB 表长时间不结束的查询,而且在查询过程中表有大量的数据变化,则会生成大量的 Undo 信息,导致 ibdata1文件尺寸增加。

由于 MySQL 内部机制的限制,ibdata1 文件目前是不支持收缩的。

因此出现这样的情况,在不升级磁盘空间的前提下,比较好的解决方法是在同地域同可用区购买相同配置的 RDS 实例,通过 DTS 工具将数据迁移到新实例中。

建议:监控和清理执行时间过长的会话或事务。

ib_logfile 日志文件:

ib_logfile0 和 ib_logfile1 日志文件保存 InnoDB 引擎表的事务日志信息,其文件大小尺寸固定,不可以改变。较大的尺寸在高并发事务的场景下有利于减少事务日志文件切换的次数,提高实例性能。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
Python
探索LightGBM:异常值处理与鲁棒建模
探索LightGBM:异常值处理与鲁棒建模【2月更文挑战第2天】
452 0
|
存储
55【计算机基础知识】大端小端存储
【计算机基础知识】大端小端存储
808 0
|
3月前
|
存储 关系型数据库 数据库
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
本文通过一个 Agentic RAG 应用的完整构建流程,展示了如何借助 RDS Supabase 快速搭建具备知识处理与智能决策能力的 AI 应用,展示从数据准备到应用部署的全流程,相较于传统开发模式效率大幅提升。
附部署代码|云数据库RDS 全托管 Supabase服务:小白轻松搞定开发AI应用
|
Java 定位技术 API
标准坐标系与火星坐标系(高德)百度坐标系之间互转
这里先给大家介绍几个坐标系: 1.WGS84:国际坐标系,为一种大地坐标系,也是目前广泛使用的GPS全球卫星定位系统使用的坐标系。2.GCJ02:火星坐标系,是由中国国家测绘局制订的地理信息系统的坐标系统。
4151 0
|
11月前
|
机器学习/深度学习 监控 安全
火焰检测识别
火焰识别技术利用深度学习算法,实现在火灾监测、工业安全、智能家居等领域的自动化检测。通过卷积神经网络(CNN)等模型,该技术能有效识别火焰,提高响应速度和安全性。文章介绍了火焰识别的应用场景、技术挑战、实现框架及代码示例,帮助读者深入了解这一技术。
|
12月前
|
Linux iOS开发 MacOS
Matplotlib 教程 之 Matplotlib 中文显示 2
Matplotlib 中文显示教程,介绍如何通过设置 Matplotlib 字体参数或下载支持中文的字体库来实现中文显示。适用于 Windows、Linux 和 macOS 系统,确保图表中文本正确呈现。
249 0
|
敏捷开发 BI 测试技术
阿里云云效产品使用问题之遇到“主机无法连接”该怎么办
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
Web App开发 IDE 测试技术
自动化测试的利器:Selenium 框架深度解析
【8月更文挑战第31天】在软件开发的世界中,自动化测试是提高产品质量和开发效率不可或缺的一环。本文将深入探讨Selenium这一强大的自动化测试工具,从其架构、优势到实战应用,一步步揭示如何利用Selenium框架提升软件测试的效率和准确性。通过具体的代码示例,我们将展示Selenium如何简化测试流程,帮助开发者快速定位问题,确保软件的稳定性和可靠性。无论你是测试新手还是资深开发者,这篇文章都将为你打开一扇通往高效自动化测试的大门。
|
Java Shell Android开发
Android构建系统:Android.mk(3)条件控制详解
Android构建系统:Android.mk(3)条件控制详解
450 1
|
SQL 资源调度 监控
Flink SQL性能优化实践
Apache Flink流处理性能优化指南:探索数据源读取并行度、状态管理、窗口操作的优化策略,包括设置默认并行度、使用RocksDB状态后端、调整窗口大小。调优方法涉及数据源分区、JOIN条件优化、使用Broadcast JOIN。注意SQL复杂度、并发控制与资源调度,如启用动态资源分配。源码层面优化自定义Source和Sink,利用执行计划分析性能瓶颈。异常检测与恢复通过启用检查点,监控任务性能。预处理数据、使用DISTINCT去重,结合UDF提高效率。选择高效序列化框架和启用数据压缩,优化网络传输和系统配置。处理数据倾斜,均衡数据分布,动态调整资源和任务优先级,以提升整体性能。
602 2