MySQL快速导入千万条数据(1)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: MySQL快速导入千万条数据(1)

对于传统的关系数据库如oracle,在大量数据导入方面的效率,我们一般有一个大概的认知,即1分钟以内可以导入千万条数据,而对于MySQL数据库,普遍观点以为性能相对较差,尤其时对于千万级别的数据量,几十分钟、几个小时,都是可能的。是否如此,本文会给出答案
在普遍去IOE的今天,最难的去O也已经势在必行,所以探讨测试一下MySQL的大数据量导入非常有必要。事实上我们的各个新建项目由于采用了MySQL数据库,在备份恢复时,便会面临大量数据的逻辑导出与导入需求。
恰好笔者手头有一个3000多万行的数据记录,SQL文本格式如下:

DROP TABLE IF EXISTS `tablename`;
CREATE TABLE `tablename` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `code` varchar(100) DEFAULT NULL,
  `init_value` text,
  `master_id` int(11) DEFAULT NULL,
  `code_id` varchar(11) DEFAULT NULL,
  `end_value` text,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=137259138 DEFAULT CHARSET=utf8;
INSERT INTO `tablename` VALUES ('40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000');
INSERT INTO `tablename` VALUES ('40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400');
INSERT INTO `tablename` VALUES ('40601440', 'CF_0105', '357661339.7200', '56816', null, '357661339.7200');
...后面都是INSERT语句

一、命令行导入方式

首先使用最原始的命令行方式测试,如下:
mysql -uroot -ppasswd' --default-character-set=utf8 dbname < mysql.sql
为了提高插入效率,去掉索引,改为批量commit提交,此处特意编写了一个脚本,用于修改原SQL文件,如下:

cat > modify_file.sh << EOF
#!/bin/sh
filename=\$1 # 定义文件名字
var1="COMMIT;" # 定义变量
var2="START TRANSACTION;" # 定义变量
sed -i ''\$2' i\'"\$var2" \$filename # 第n行前添加"START TRANSACTION;"
cat \$filename|awk 'NR%1000==0{printf("%09d\n", NR)}'|while read line #每隔1000行获取行号 
do
  echo "\$line"
  sed -i ''\$line'a '"\$var1""\n""\$var2"'' \$filename # 向文件插入两行,分别是"COMMIT;"和"START TRANSACTION;"
done
sed -i '\$a\'"\$var1" \$filename # 最后1行添加"COMMIT;"
EOF

一个简单的导入脚本,用于记录时间:

vim dumpin.sh
echo "Start ...("`date "+%Y%m%d-%H:%M:%S"`")"
mysql -uroot -p'passwd' --default-character-set=utf8 dbname < $1
echo "Completed.("`date "+%Y%m%d-%H:%M:%S"`")"

chmod +x dumpin.sh

取出前50万行:
head -500000 mysql.sql > mysql2.sql
修改文件内容,加入批量提交语句:
./modify_file.sh mysql2.sql 35
执行导入:

logfile=dumpin.log_"`date "+%Y%m%d_%H-%M"`"
./dumpin.sh mysql2.sql > $logfile 2>&1 &

测试结果如下:
去索引,每1000条批量提交,50万行耗时9分钟

Start ...(20220224-21:49:58)
Completed.(20220224-21:58:17)

去索引,逐行提交,50万行耗时19分钟

Start ...(20220224-22:14:13)
Completed.(20220224-22:33:37)

可见这个命令行的导入方式,时间太长,几乎无法接受,也没有太大的提升空间。

二、LOAD DATA导入方式

关于LOAD DATA的详细介绍请网搜,此处不再赘述。
首先,修改原SQL文件格式为LOADDATA可用的csv文本格式,此处先用前500万行测试:

head -5000000 mysql.sql > mysql2.sql
sed -i "s/INSERT INTO \`tablename\` VALUES (//g" mysql2.sql
sed -i "s/);//g" mysql2.sql

经过以上自动编辑处理,原SQL文件内容成为如下格式:

'40601438', 'CF_0105', '121589425857.3000', '56814', null, '121589425857.3000'
'40601439', 'CF_0105', '113776588.1400', '56815', null, '113776588.1400'

然后,执行导入,如下所示:

mysql -uroot -p'passwd' dbname --local-infile
LOAD DATA LOCAL INFILE '/root/mysql2.sql'
INTO TABLE tablename
FIELDS TERMINATED BY ', '
ENCLOSED BY "'"
LINES TERMINATED BY '\n'
IGNORE 34 lines;

期间遭遇3948、2068错误,自行网搜修改配置即可解决,最终测试结果如下:
**500万行,有2索引导入耗时:3 min 35.32 sec
500万行,无 索引导入耗时:3 min 5.99 sec**
可见百万行级别load时少数索引影响不大,基本是数分钟内可以导入百万条记录
必须说明,由于这是在笔记本电脑虚机的测试结果,相信生产环境会快很多。

好,现在你还会说,MySQL数据库大批量数据导入性能较差吗?

下一步继续测试这3000万条数据全部导入的情况。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
23天前
|
安全 关系型数据库 MySQL
如何将数据从MySQL同步到其他系统
【10月更文挑战第17天】如何将数据从MySQL同步到其他系统
130 0
|
29天前
|
SQL 前端开发 关系型数据库
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
45 0
全表数据核对 ,行数据核对,列数据核对,Mysql 8.0 实例(sample database classicmodels _No.3 )
|
1月前
|
关系型数据库 MySQL 数据库
mysql 里创建表并插入数据
【10月更文挑战第5天】
113 1
|
5天前
|
存储 Oracle 关系型数据库
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
本文介绍了MySQL InnoDB存储引擎中的数据文件和重做日志文件。数据文件包括`.ibd`和`ibdata`文件,用于存放InnoDB数据和索引。重做日志文件(redo log)确保数据的可靠性和事务的持久性,其大小和路径可由相关参数配置。文章还提供了视频讲解和示例代码。
106 11
【赵渝强老师】MySQL InnoDB的数据文件与重做日志文件
|
5天前
|
缓存 NoSQL 关系型数据库
Redis和Mysql如何保证数据⼀致?
在项目中,为了解决Redis与Mysql的数据一致性问题,我们采用了多种策略:对于低一致性要求的数据,不做特别处理;时效性数据通过设置缓存过期时间来减少不一致风险;高一致性但时效性要求不高的数据,利用MQ异步同步确保最终一致性;而对一致性和时效性都有高要求的数据,则采用分布式事务(如Seata TCC模式)来保障。
33 14
|
8天前
|
SQL 前端开发 关系型数据库
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
SpringBoot使用mysql查询昨天、今天、过去一周、过去半年、过去一年数据
37 9
|
20天前
|
SQL Java 关系型数据库
java连接mysql查询数据(基础版,无框架)
【10月更文挑战第12天】该示例展示了如何使用Java通过JDBC连接MySQL数据库并查询数据。首先在项目中引入`mysql-connector-java`依赖,然后通过`JdbcUtil`类中的`main`方法实现数据库连接、执行SQL查询及结果处理,最后关闭相关资源。
|
16天前
|
SQL 关系型数据库 MySQL
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
定时任务频繁插入数据导致锁表问题 -> 查询mysql进程
36 1
|
17天前
|
SQL 关系型数据库 MySQL
mysql数据误删后的数据回滚
【11月更文挑战第1天】本文介绍了四种恢复误删数据的方法:1. 使用事务回滚,通过 `pymysql` 库在 Python 中实现;2. 使用备份恢复,通过 `mysqldump` 命令备份和恢复数据;3. 使用二进制日志恢复,通过 `mysqlbinlog` 工具恢复特定位置的事件;4. 使用延迟复制从副本恢复,通过停止和重启从库复制来恢复数据。每种方法都有详细的步骤和示例代码。
|
29天前
|
存储 关系型数据库 MySQL
面试官:MySQL一次到底插入多少条数据合适啊?
本文探讨了数据库插入操作的基础知识、批量插入的优势与挑战,以及如何确定合适的插入数据量。通过面试对话的形式,详细解析了单条插入与批量插入的区别,磁盘I/O、内存使用、事务大小和锁策略等关键因素。最后,结合MyBatis框架,提供了实际应用中的批量插入策略和优化建议。希望读者不仅能掌握技术细节,还能理解背后的原理,从而更好地优化数据库性能。