MySQL快速导入千万条数据(1)

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
RDS Agent(兼容OpenClaw),2核4GB
简介: MySQL快速导入千万条数据(1)

对于传统的关系数据库如oracle,在大量数据导入方面的效率,我们一般有一个大概的认知,即1分钟以内可以导入千万条数据,而对于MySQL数据库,普遍观点以为性能相对较差,尤其时对于千万级别的数据量,几十分钟、几个小时,都是可能的。是否如此,本文会给出答案
在普遍去IOE的今天,最难的去O也已经势在必行,所以探讨测试一下MySQL的大数据量导入非常有必要。事实上我们的各个新建项目由于采用了MySQL数据库,在备份恢复时,便会面临大量数据的逻辑导出与导入需求。
恰好笔者手头有一个3000多万行的数据记录,SQL文本格式如下:

DROP TABLE IF EXISTS `tablename`;
CREATE TABLE `tablename` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `code` varchar(100) DEFAULT NULL,
  `init_value` text,
  `master_id` int(11) DEFAULT NULL,
  `code_id` varchar(11) DEFAULT NULL,
  `end_value` text,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=137259138 DEFAULT CHARSET=utf8;
INSERT INTO `tablename` VALUES ('40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000');
INSERT INTO `tablename` VALUES ('40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400');
INSERT INTO `tablename` VALUES ('40601440', 'CF_0105', '357661339.7200', '56816', null, '357661339.7200');
...后面都是INSERT语句

一、命令行导入方式

首先使用最原始的命令行方式测试,如下:
mysql -uroot -ppasswd' --default-character-set=utf8 dbname < mysql.sql
为了提高插入效率,去掉索引,改为批量commit提交,此处特意编写了一个脚本,用于修改原SQL文件,如下:

cat > modify_file.sh << EOF
#!/bin/sh
filename=\$1 # 定义文件名字
var1="COMMIT;" # 定义变量
var2="START TRANSACTION;" # 定义变量
sed -i ''\$2' i\'"\$var2" \$filename # 第n行前添加"START TRANSACTION;"
cat \$filename|awk 'NR%1000==0{printf("%09d\n", NR)}'|while read line #每隔1000行获取行号 
do
  echo "\$line"
  sed -i ''\$line'a '"\$var1""\n""\$var2"'' \$filename # 向文件插入两行,分别是"COMMIT;"和"START TRANSACTION;"
done
sed -i '\$a\'"\$var1" \$filename # 最后1行添加"COMMIT;"
EOF

一个简单的导入脚本,用于记录时间:

vim dumpin.sh
echo "Start ...("`date "+%Y%m%d-%H:%M:%S"`")"
mysql -uroot -p'passwd' --default-character-set=utf8 dbname < $1
echo "Completed.("`date "+%Y%m%d-%H:%M:%S"`")"

chmod +x dumpin.sh

取出前50万行:
head -500000 mysql.sql > mysql2.sql
修改文件内容,加入批量提交语句:
./modify_file.sh mysql2.sql 35
执行导入:

logfile=dumpin.log_"`date "+%Y%m%d_%H-%M"`"
./dumpin.sh mysql2.sql > $logfile 2>&1 &

测试结果如下:
去索引,每1000条批量提交,50万行耗时9分钟

Start ...(20220224-21:49:58)
Completed.(20220224-21:58:17)

去索引,逐行提交,50万行耗时19分钟

Start ...(20220224-22:14:13)
Completed.(20220224-22:33:37)

可见这个命令行的导入方式,时间太长,几乎无法接受,也没有太大的提升空间。

二、LOAD DATA导入方式

关于LOAD DATA的详细介绍请网搜,此处不再赘述。
首先,修改原SQL文件格式为LOADDATA可用的csv文本格式,此处先用前500万行测试:

head -5000000 mysql.sql > mysql2.sql
sed -i "s/INSERT INTO \`tablename\` VALUES (//g" mysql2.sql
sed -i "s/);//g" mysql2.sql

经过以上自动编辑处理,原SQL文件内容成为如下格式:

'40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000'
'40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400'

然后,执行导入,如下所示:

mysql -uroot -p'passwd' dbname --local-infile
LOAD DATA LOCAL INFILE '/root/mysql2.sql'
INTO TABLE tablename
FIELDS TERMINATED BY ', '
ENCLOSED BY "'"
LINES TERMINATED BY '\n'
IGNORE 34 lines;

期间遭遇3948、2068错误,自行网搜修改配置即可解决,最终测试结果如下:
**500万行,有2索引导入耗时:3 min 35.32 sec
500万行,无 索引导入耗时:3 min 5.99 sec**
可见百万行级别load时少数索引影响不大,基本是数分钟内可以导入百万条记录
必须说明,由于这是在笔记本电脑虚机的测试结果,相信生产环境会快很多。

好,现在你还会说,MySQL数据库大批量数据导入性能较差吗?

下一步继续测试这3000万条数据全部导入的情况。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
缓存 NoSQL 关系型数据库
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
|
11月前
|
SQL 人工智能 关系型数据库
如何实现MySQL百万级数据的查询?
本文探讨了在MySQL中对百万级数据进行排序分页查询的优化策略。面对五百万条数据,传统的浅分页和深分页查询效率较低,尤其深分页因偏移量大导致性能显著下降。通过为排序字段添加索引、使用联合索引、手动回表等方法,有效提升了查询速度。最终建议根据业务需求选择合适方案:浅分页可加单列索引,深分页推荐联合索引或子查询优化,同时结合前端传递最后一条数据ID的方式实现高效翻页。
568 0
|
9月前
|
SQL 关系型数据库 MySQL
如何将Excel表的数据导入RDS MySQL数据库?
本文介绍如何通过数据管理服务DMS将Excel文件(转为CSV格式)导入RDS MySQL数据库,涵盖建表、编码设置、导入模式选择及审批执行流程,并提供操作示例与注意事项。
|
10月前
|
存储 关系型数据库 MySQL
在CentOS 8.x上安装Percona Xtrabackup工具备份MySQL数据步骤。
以上就是在CentOS8.x上通过Perconaxtabbackup工具对Mysql进行高效率、高可靠性、无锁定影响地实现在线快速全量及增加式数据库资料保存与恢复流程。通过以上流程可以有效地将Mysql相关资料按需求完成定期或不定期地保存与灾难恢复需求。
758 10
|
11月前
|
关系型数据库 MySQL Java
字节面试: MySQL 百万级 导入发生的 “死锁” 难题如何解决?“2序4拆”,彻底攻克
字节面试: MySQL 百万级 导入发生的 “死锁” 难题如何解决?“2序4拆”,彻底攻克
字节面试: MySQL 百万级 导入发生的 “死锁” 难题如何解决?“2序4拆”,彻底攻克
|
11月前
|
SQL 存储 缓存
MySQL 如何高效可靠处理持久化数据
本文详细解析了 MySQL 的 SQL 执行流程、crash-safe 机制及性能优化策略。内容涵盖连接器、分析器、优化器、执行器与存储引擎的工作原理,深入探讨 redolog 与 binlog 的两阶段提交机制,并分析日志策略、组提交、脏页刷盘等关键性能优化手段,帮助提升数据库稳定性与执行效率。
295 0
|
关系型数据库 MySQL Linux
在Linux环境下备份Docker中的MySQL数据并传输到其他服务器以实现数据级别的容灾
以上就是在Linux环境下备份Docker中的MySQL数据并传输到其他服务器以实现数据级别的容灾的步骤。这个过程就像是一场接力赛,数据从MySQL数据库中接力棒一样传递到备份文件,再从备份文件传递到其他服务器,最后再传递回MySQL数据库。这样,即使在灾难发生时,我们也可以快速恢复数据,保证业务的正常运行。
599 28
|
存储 SQL 关系型数据库
【YashanDB知识库】MySQL迁移至崖山char类型数据自动补空格问题
**简介**:在MySQL迁移到崖山环境时,若字段类型为char(2),而应用存储的数据仅为&#39;0&#39;或&#39;1&#39;,查询时崖山会自动补空格。原因是mysql的sql_mode可能启用了PAD_CHAR_TO_FULL_LENGTH模式,导致保留CHAR类型尾随空格。解决方法是与应用确认数据需求,可将崖山环境中的char类型改为varchar类型以规避补空格问题,适用于所有版本。
|
存储 SQL 缓存
mysql数据引擎有哪些
MySQL 提供了多种存储引擎,每种引擎都有其独特的特点和适用场景。以下是一些常见的 MySQL 存储引擎及其特点:
332 0
|
SQL 关系型数据库 MySQL
【YashanDB知识库】字符集latin1的MySQL中文数据如何迁移到YashanDB
本文探讨了在使用YMP 23.2.1.3迁移MySQL Server字符集为latin1的中文数据至YashanDB时出现乱码的问题。问题根源在于MySQL latin1字符集存放的是实际utf8编码的数据,而YMP尚未支持此类场景。文章提供了两种解决方法:一是通过DBeaver直接迁移表数据;二是将MySQL表数据转换为Insert语句后手动插入YashanDB。同时指出,这两种方法适合单张表迁移,多表迁移可能存在兼容性问题,建议对问题表单独处理。
【YashanDB知识库】字符集latin1的MySQL中文数据如何迁移到YashanDB

热门文章

最新文章

推荐镜像

更多